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贡 球 的 C/C++ 文档 


This is a book about some programing languages and something about their theory. 
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术语 和 文献 列表 


本 文 用 于 对 相关 文章 内 容 的 正式 引用 提供 解释 性 补充 参照 。 


C 语言 标准 

ANSI C89 指 ANSI X3.159-1989 ， 后 来 被 采纳 为 ISO/IEC 9899:1990 ， 通 称 COO. 两 者 正 
文 仅 有 格式 变化 (另外 C90 不 包含 Rationale ) 。 

C99 zk ISO C99 18 ISO/IEC 9899:1999, 被 ANSI 于 2000 年 5 月 采纳 。 


C11 或 ISO C11 #8 ISO/IEC 9899:2011 ， 是 第 三 版 正式 C 语 言 国际 语言 标准 ， 也 被 称 为 C1X 


o 


ANSI C 一 般 即 ANSI C89 。 实 际 上 也 只 有 这 版 标准 是 先 ANSI A ISO., 


C++ tr 


C++98 BK ISO C++98 指 ISO/IEC 14882:1998 ， 是 第 一 个 C++ 语言 国际 标准 。 


C++03 B ISO C++03 指 ISO/IEC 14882:2003 ， 是 第 二 版 C++ 语言 国际 标准 ， 对 上 一 版 只 
有 小 的 修正 。 


C++11 或 ISO C++11 指 ISO/IEC 14882:2011 ， 是 第 三 版 C++ 语言 国际 标准 ， 有 较 大 改动 。 
在 出 版 之 前 ， 便 经 有 较 长 时 间 的 延期 ， 被 称 为 C++0x 。 


C++14 3 ISO C++14 18 ISO/IEC 14882:2014 ， 是 第 四 版 C++ 语言 国际 标准 ， 有 一 定 修 
正 ， 之 前 称 为 C++1y 。 


N 


C++17 E ISO C++17 指 预 定 出 版 的 ISO/IEC 14882:2017, © C++ 语言 国际 标准 的 一 个 主 
要 版 本 ， 被 称 为 C++1z 。 


ISO C/C++ 基础 总 结 


本 文档 意 为 避免 C 和 C++ 语言 中 的 一 些 陷阱 的 通用 指引 及 撰写 相关 FAQ 的 权威 参考 的 要 点 
注解 。 


可 能 会 包含 程序 语言 理论 或 其 它 语言 的 具体 例子 作为 语言 中 ， 左 值 指示 可 能 访问 的 参照 。 
因为 涉及 内 容 过 多 ， 本 文档 不 保证 内 容 的 完整 履 盖 ， 且 可 能 会 多 次 修订 。 
本 文档 避免 原创 研究 ， 尽 量 保证 参考 文献 可 查证 但 不 保证 所 有 文献 的 权威 性 。 


未 完成 部 分 以 TBD(to be determined) 标记 。 正 在 修订 部 分 以 WIP(work in progress) 标记 。 


0 体例 说 明 


0.1 引用 文献 
仅 在 此 标注 权威 文献 。 
正式 标准 ISO/IEC 14882:2011 和 ISO/IEC 9899:1999 分 别 标记 为 [C++11] 和 [C11] 。 


相关 工作 组 文献 ， 以 标准 草案 为 例 : ISO/IEC JTC1 WG21 N3936 fll ISO/IEC JTC1 WG14 
N1570 ) 分 别 标 记 为 [WG21/N3936] 和 [WG14/N1570] 。 


标记 中 可 包括 章节 号 或 章节 引用 。 

引用 ISO C 和 ISO C++ 对 应 段落 的 顺序 不 确定 ， 视 文档 内 容 需 要 而 定 。 
涉及 到 ISO C 和 ISO C++ 的 差异 会 特别 标示 。 

引文 可 能 有 部 分 省 略 。 

若 无 特别 说 明 ， 保 证 引用 的 草案 和 正式 标准 中 的 实质 含义 一 致 。 

不 额外 特别 标识 其 它 引 用 。 


0.2 记 法 


和 1SO C AR ISO C++ 类 似 ， 和 斜体 用 于 表示 首次 引入 的 需要 读者 注意 的 局 部 概念 [C++11 
1.3/3] 或 语法 记 法 (syntax notation) [C++11 1.6] 。 这 些 概念 或 语法 标注 在 引用 的 参考 文献 或 本 
文档 内 可 以 找到 释义 。 


粗 体 用 于 强调 。 


0.3 本 文 的 结构 
一 级 目录 基本 和 ISO C++ 保持 一 致 。 
考虑 系统 性 和 内 容 涵盖 ， 在 此 以 ISO C++ 而 不 是 ISO C 作为 范本 。 


1 概论 


1.1 语法 和 语义 


什么 称 为 语法 或 语义 不 是 ISO C 或 1SO C++ 的 内 容 。 但 是 ， 尽 管 没有 明确 定义 ， ISO C 和 
ISO C++ 都 明确 地 用 到 了 这 个 概念 。 作 为 背景 知识 ， 在 这 里 有 必要 澄清 通常 的 含义 。 


所 谓语 法 (syntax) ， 在 一 般 高 级 语言 中 指 一 种 描述 合 规 性 的 “字面 上 的 "构造 。 其 它 所 有 的 含义 
可 被 轨 类 为 语义 范畴 。 


语法 和 语义 不 存在 绝对 的 界限 。 区 分 语法 和 语义 主要 来 自 于 人 为 的 设计 。 这 种 差异 能 够 使 设 
计 和 实现 一 个 语言 更 简单 。 从 设计 的 角度 来 讲 ， 明 确 语言 规则 的 过 程 可 以 首先 从 提取 固定 的 
语法 规则 开始 。 语 法 规则 的 检查 一 语法 分 析 具 有 相对 成 熟 的 理论 和 实现 ， 在 此 分 离 这 能 够 
让 设计 者 集中 于 后 续 的 目的 性 更 加 明确 的 语义 设计 。 从 实现 的 角度 看 ， 首 先 检查 语法 指定 的 
规则 ， 如 果 不 符合 则 可 以 直接 拒绝 接受 ， 避 免 复 条 通用 的 语义 检查 造成 的 实现 困难 和 低 效 ; 
同时 也 有 机 会 复 用 分 析 器 (parser) 的 实现 。 





对 于 没有 经 过 设计 的 语言 比如 自然 语言 来 说 ， 语 法 和 语义 的 界限 通常 并 不 明确 。 和 其 它 形式 
语言 一 样 ， 它 们 也 可 以 用 文法 (grammar) 来 描述 。 


对 于 显 式 区 分 语法 和 语义 的 语言 来 说 ， 语 法 和 语义 也 可 以 通过 指定 形式 文法 (formal grammar) 
研究 。 形 式 文法 被 具体 表述 为 记 法 (notation) 时 本 身 构成 一 种 元 语言 (metalanguage) ， 具 有 自 
身 的 元 语法 (meta syntax) 。 元 语法 的 一 个 经 典 的 例子 是 BNF o 


ISO C #1 ISO C++ 使 用 相似 的 文法 标记 。 关 于 体例 说 明 ， 分 别 参 考 [C11 Clause 6] 和 
[C++11 1.6] ; 此 外 ， 通 过 [C11 Annex A] 和 [C++11 Annex A] 总 览 语法 。 


此 外 ， ISOC 还 对 语言 规则 中 使 用 Constraints 和 Semantics 为 标题 进行 了 分 类 。 
对 于 实用 来 说 ， 这 里 语法 和 语义 的 区 别 重 要 性 ， 在 于 它 指定 了 什么 程序 是 应 该 正确 被 接受 
的 。 


1.2 程序 正确 性 
ISO C++ EL T ARH (well-formed) 程序 以 及 一 些 其 它 重要 的 术语 定义 : 


[WG21/N3936] 
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1.3 Terms and definitions 


1.3.10 [defns.impl.defined] 


implementation-defined behavior 


behavior, for a well-formed program construct and correct data, that depends on the 
implementation and that each implementation documents 


1.3.12 [defns.locale.specific] 


locale-specific behavior 


behavior that depends on local conventions of nationality, culture, and language that 
each implementation documents 


1.3.24 [defns.undefined] 


undefined behavior 
behavior for which this International Standard imposes no requirements 


[ Note: Undefined behavior may be expected when this International Standard omits 
any explicit definition of behavior or when a program uses an erroneous construct or 
erroneous data. Permissible undefined behavior ranges from ignoring the situation 
completely with unpredictable results, to behaving during translation or program 
execution in a documented manner characteristic of the environment (with or without 
the issuance of a diagnostic message), to terminating a translation or execution (with 
the issuance of a diagnostic message). Many erroneous program constructs do not 
engender undefined behavior; they are required to be diagnosed. —end note ] 


1.3.25 [defns.unspecified] 


unspecified behavior 


behavior, for a well-formed program construct and correct data, that depends on the 
implementation 


[ Note: The implementation is not required to document which behavior occurs. The 
range of possible behaviors is usually delineated by this International Standard. —end 
note ] 


1.3.26 [defns.well.formed] 
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well-formed program 


C++ program constructed according to the syntax rules, diagnosable semantic rules, 
and the One Definition Rule (3.2). 


其 中 : 


e KELIT A (undefined behavior) 在 ISO C++11 的 意义 上 理解 为 “错误 的 "或 “不 可 移植 
的 "， 不 保证 行为 可 预测 。 


。 未 指定 (unspecified) 不 保证 结果 唯一 ， 可 以 是 正确 的 。 


e 可 诊断 (diagnosable) [C++11 Clause 1.4] 详 见 下 文 。 


e ODR(One Definition Rule) [C++11 Clause 3] 独立 于 一 般 的 语法 和 语义 规则 之 外 ， 详 见 下 
文 。 


Hatib, ISO C 也 有 类 似 的 术语 定义 : 


[WG14/N1570] 


3. Terms, definitions, and symbols 


3.4 


1 behavior 


external appearance or action 


3.4.1 


1 implementation-defined behavior 
unspecified behavior where each implementation documents how the choice is made 


2 EXAMPLE An example of implementation-defined behavior is the propagation of the 
high-order bit when a signed integer is shifted right. 


3.4.2 


1 locale-specific behavior 
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behavior that depends on local conventions of nationality, culture, and language that 
each implementation documents 


2 EXAMPLE An example of locale-specific behavior is whether theislowerfunction 
returns true for characters other than the 26 lowercase Latin letters. 


3.4.3 


1 undefined behavior 


behavior, upon use of a nonportable or erroneous program construct or of erroneous 
data, for which this International Standard imposes no requirements 


2 NOTE Possible undefined behavior ranges from ignoring the situation completely with 
unpredictable results, to behaving during translation or program execution in a 
documented manner characteristic of the environment (with or without the issuance of a 
diagnostic message), to terminating a translation or execution (with the issuance of a 
diagnostic message). 


3 EXAMPLE An example of undefined behavior is the behavior on integer overflow. 


3.4.4 


1 unspecified behavior 


use of an unspecified value, or other behavior where this International Standard 
provides two or more possibilities and imposes no further requirements on which is 
chosen in any instance 


2 EXAMPLE An example of unspecified behavior is the order in which the arguments to 


a function are evaluated. 


不 同 主要 在 于 ISO C++ 的 未 指定 和 实现 定义 是 分 离 的 ， ISO C 中 的 实现 定义 是 未 指定 的 特 
例 。 


ISOC 没有 规定 “合式 "， 而 使 用 以 下 机 制 : 
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4. Conformance 


1 In this International Standard, “shall” is to be interpreted as a requirement on an 
implementation or on a program; conversely, “shall not” is to be interpreted as a 
prohibition. 


2 If a "shall" or “shall not" requirement that appears outside of a constraint or 
runtimeconstraint is violated, the behavior is undefined. Undefined behavior is 
otherwise indicated in this International Standard by the words “undefined behavior" or 
by the omission of any explicit definition of behavior. There is no difference in emphasis 
among these three; they all describe “behavior that is undefined". 


3 A program that is correct in all other aspects, operating on correct data, containing 
unspecified behavior shall be a correct program and act in accordance with 5.1.2.3. 


4 The implementation shall not successfully translate a preprocessing translation unit 
containing a#errorpreprocessing directive unless it is part of a group skipped by 
conditional inclusion. 


1.3 诊断 消息 

最 典型 的 诊断 消息 是 编译 错误 和 警告 。 

一 个 实现 应 当 正 确 的 程序 。 对 于 错误 的 程序 ， 为 了 避免 实现 复杂 ，1ISO C 和 1SO C++ RFS 
现 不 完全 进行 语义 检查 。 这 里 略 有 差异 : ISOC 把 这 种 情况 统一 为 未 定义 行为 ， 而 ISO C++ 


特地 增加 了 no diagnostics required 条 款 。 因 此 对 于 C++ ， 编 译 通过 的 程序 ， 即 便 排除 未 定 
义 行 为 ， 在 语言 规则 下 仍然 可 能 是 错 的 。 


1.4 存储 模型 
1.5 对 象 模型 


1.5.1“ 对 象 ” 的 正式 定义 


[WG14/N1570] 
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3.15 


1 object 


region of data storage in the execution environment, the contents of which can 
represent values 


2 NOTE When referenced, an object may be interpreted as having a particular type; see 
6.3.2.1. 


这 ISO C++ 中 基本 一 致 : 


[WG21/N3936] 


1.8 The C++ object model [intro.object] 


1 The constructs in a C++ program create, destroy, refer to, access, and manipulate 
objects. An object is a region of storage. [ Note: A function is not an object, regardless 
of whether or not it occupies storage in the way that objects do. —end note ] An object 
is created by a definition (3.1), by a new-expression (5.3.4) or by the implementation 
(12.2) when needed. The properties of an object are determined when the object is 
created. An object can have a name (Clause 3). An object has a storage duration (3.7) 
which influences its /ifetime (3.8). An object has a type (3.9). The term object type 
refers to the type with which the object is created. Some objects are polymorphic (10.3); 
the implementation generates information associated with each such object that makes 
it possible to determine that object's type during program execution. For other objects, 
the interpretation of the values found therein is determined by the type of the 
expressions (Clause 5) used to access them. 


在 Java[JLS8] 以 及 传统 的 基于 类 风格 的 面向 对 象 (class-basea style object-orientation) 的 上 
下 文中 ， 对 象 则 是 指 “ 类 的 实例 5， 和 ISO C 以 及 ISO C++ 都 不 同 。 (BH, “实例 ”的 意义 在 
ISO C++ 中 也 不 一 样 。) 


TBD 


1.6 程序 执行 


1.7 多 线程 环境 


2 词法 转换 
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TBD 


A 
3 基本 概念 
以 下 “基本 概念 " 指 [C++11 Clause 3] 中 讨论 的 内 容 。 


3.1 名 称 和 实体 


ISO C++ 引入 ODR(One Definition Rule) [C++11 Clause 3] 而 特别 指定 了 实体 (entity) 的 概 


a 
ito 


与 此 相对 ， 名 称 (name) 用 于 指称 (denote) 实体 ， 通 过 声明 (declaration) 引入 。 
推论 : 名 称 不 是 实体 。 
变量 (variable) 的 含义 也 在 此 基础 上 被 明确 。 


[WG21/N3936] 


3 Basic concepts [basic] 


3 An entity is a value, object, reference, function, enumerator, type, class member, 
template, template specialization, namespace, parameter pack, or this . 


4 Aname is a use of an identifier (2.11), operator-function-id (13.5), literal-operator-id 
(13.5.8), conversion-function-id (12.3.2), or template-id (14.2) that denotes an entity or 
label (6.6.4, 6.1). 


5 Every name that denotes an entity is introduced by a declaration. Every name that 
denotes a label is introduced either bya goto statement (6.6.4) or a labeled-statement 
(6.1). 


6 A variable is introduced by the declaration of a reference other than a non-static data 
member or of an object. The variable’s name, if any, denotes the reference or object. 


(Ae, ISOC 没有 这 些 概念 。 在 ISO C 中: 


e vairable 一 词 并 没有 被 正式 使 用 为 名 词 表 示 " 变 量 "的 含义 。 在 VLA(varialbe-length array) 
中 出 现 的 是 形容 词 ， 意 为 "变量 的 "， 指 不 在 翻译 时 确定 大 小 ， 和 这 里 的 概念 无 关 。 

e entity 一 词 被 不 经 正式 定义 地 使 用 ， 也 没有 和 ISO C 类 似 的 含义 (考虑 ISO C 没有 ODR 
) 。 似 乎 作者 认为 是 不 言 自明 的 。 
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e name 一 词 被 不 经 正式 定义 地 使 用 。 ISOC 没有 ISO C++ 那样 带 记 号 :: BY qualified-id 


[C++11 5.1.1] 和 operator-function-id [C++11 13.5] 等 语法 构造 , “标识 符 " 和 “名 称 " 基 本 一 


致 。 


3.2 声明 和 定义 
首先 ， 预 处 理 阶段 (phase) 的 宏 定义 (macro definition) 不 属于 本 章 讨 论 的 “定义 ”的 外 延 。 
在 ISO C++ 中 ， 声 明 总 是 定义 ， 反 过 来 不 成 立 : 


[WG21/N3936] 


3.1 Declarations and definitions [basic.def] 


2Adeclaration is a definition unless it declares a function without specifying the 
function’s body (8.4), it contains the extern specifier (7.1.1) or a linkage-specification 
25 (7.5) and neither an initializer nor a function-body , it declares a static data member 
in a class definition (9.2, 9.4), it is a class name declaration (9.1), it is an opaque-enum- 
declaration (7.2), it is a template-parameter (14.1), itis a parameter-declaration (8.3.5) 
in a function declarator that is not the declarator of a function-definition , or itis a 

typedef declaration (7.1.3), an alias-declaration (7.1.3), a using-declaration (7.3.3), a 
static assert-declaration (Clause 7), an attribute-declaration (Clause 7), an empty- 
declaration (Clause 7), or a using-directive (7.3.4). 


25) Appearing inside the braced-enclosed declaration-seq in a linkage-specification 
does not affect whether a declaration is a definition. 


ISO C 也 有 类 似 的 结论 ， 但 略 有 不 同 : 


[WG14/N1570] 
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6.7 Declarations 


Semantics 


5 A declaration specifies the interpretation and attributes of a set of identifiers. A 
definition of an identifier is a declaration for that identifier that: 


— for an object, causes storage to be reserved for that object; 


— for a function, includes the function body;119) 


— for an enumeration constant, is the (only) declaration of the identifier; 

—fora typedef name, is the first (or only) declaration of the identifier. 

119) Function definitions have a different syntax, described in 6.9.1. 
排除 ISO C++ 不 兼容 ISO C 的 部 分 ， 存 在 重要 的 差异 : 


。 ISOC 的 声明 和 定义 都 针对 标识 符 。 ISO C++ 的 声明 引入 名 称 (包括 声明 标识 符 的 情 
形 ) ， 而 定义 针对 实体 。 


e ISOC 中 的 一 个 声明 是 否 是 定义 ， 可 能 和 出 现 的 位 置 相 关 。 (例如 tentative definition 
c) 


e typedef 声明 是 可 以 定义 而 不 总 只 是 声明 。 
3.3 ODR 


3.4 关于 变量 
上 文 已 经 提 及 ISO C++ 中 的 "变量 ”的 定义 ， 且 明确 了 对 应 术语 在 1SO C 中 不 存在 。 

ISO C 避免 使 用 "变量 ”的 原因 可 能 在 于 含义 的 不 够 明确 。 

TBD 

与 此 类 似 的 是 ， 术 话 " 对 象 " 在 不 同 程序 语言 的 规则 下 也 有 不 同 的 含义 。 但 是 在 ISO C 7 ISO 
C++ r1 £& (object) 的 内 泗 和 外 延 都 是 清楚 的 。 

3.4.1 “变量 ”的 一 般 意 义 

TBD 


一 般 地 ， 变 量 的 “可 变 " 指 不 同 的 名 称 可 以 绑 定 不 同 的 实体 。 


但 是 ， 近 年 来 的 程序 语言 设计 习惯 于 曲解 为 变量 可 以 存储 不 同 的 " 值 "。 这 是 片面 的 说 法 。 事 实 
上 ， 存 在 "变量 "的 值 不 可 变 的 语言 ， 如 Haskell [Haskell]. 


TBD 
不 管 使 用 什么 定义 ， 可 以 确定 的 是 ， 变 量 总 有 变量 名 (variable's name) 。 并 且 和 数学 的 传统 不 
同 ， 在 程序 设计 语言 中 ， 一 般 不 能 把 两 者 任意 互相 替代 。 
3.4.2 变量 和 音量 
和 直觉 上 不 同 ， 在 ISO C++ 的 上 下 文中 ， 变 量 和 常量 并 不 相对 : 
e ISO C++ 明确 定义 了 什么 是 变量 ， 但 没有 定义 什么 是 常量 。 
e ISO C++ 中 明确 涉及 常量 的 术语 只 有 若干 常量 表达 式 (constant-expression) 


常量 表达 式 在 实用 的 意义 上 指 有 可 能 在 翻译 时 即 可 确定 值 的 表达 式 ， 在 一 般 意 义 上 和 变量 不 
完全 相对 。 


而 在 ISO C 中 ， 却 明确 /有 常量 (constant) 的 术语 。 但 是 ， 这 只 是 语法 上 的 分 类 ， 相 当 于 ISO 
C++ 所 说 的 一 部 分 字面 量 (literal) 。 


此 外 ， 应 该 了 解 , “常量 "和 下 文 的 const 限定 符 是 完全 两 回 事 ， 尽 管 后 者 在 C++ 中 具有 常量 
的 目的 。 


WIP 
3.5 作用 域 

3.6 名 称 查 找 
3.7 程序 和 连接 
3.8 启动 与 终止 


3.9 存储 期 
3.10 对 象 生 存 期 


3.11 类 型 


3.11.1 基本 类 型 


ISO C 的 基本 类 型 和 ISO C++ 的 基本 类 型 不 同 。 
Java 中 类 似 的 基本 类 型 称 为 原始 类 型 (primitive type) 。 


TBD 
3.11.2 组 合 类 型 


3.11.3 数组 和 指针 


WIP 
数组 和 指针 都 是 组 合 类 型 的 分 类 。 数 组 不 是 指针 ， 指 针 不 是 数组 。 


不 导致 歧义 时 ， 数 组 的 值 或 者 数组 类 型 的 对 象 可 能 称 为 数组 。 指 针 类 似 。 同 样 ， 在 这 个 上 下 
文中 数组 不 是 指针 ， 指 针 不 是 数组 。 


无 论 何 种 上 下 文 上 面 讨论 的 都 是 实体 。 根 据 名 称 和 实体 的 推论 ， 数 组 名 不 是 数组 ， 指 针 名 不 


是 指针 。 


3.11.6 限定 符 


3.12 值 类 别 
B 语言 指定 了 左 值 (-value) 作为 语法 上 的 分 类 。 相 对 地 ， 非 左 值 为 右 值 (r-value) 。 


C 语言 中 ， 左 值 指示 可 能 访问 的 存储 。 右 值 即 为 “表达 式 的 值 ”( 参 见 [C11 6.3.2.1] 的 注释 ) 。 
除了 在 特定 的 一 些 上 下 文中 ， 左 值 会 转换 为 值 。 


WIP 
C++03 规定 ， 表 达 式 不 是 左 值 就 是 右 值 。 


C++11 在 引入 右 值 引用 类 型 后 引入 了 新 的 分 类 ， 称 为 值 类 别 (value category) 。 左 值 被 扩充 为 
泛 左 值 (glvalue) ， 包 括 原 来 的 左 值 和 新 的 消亡 值 (xvalue) ; 右 值 的 概念 被 扩充 为 包括 消亡 值 
和 原来 的 右 值 ， 后 者 称 为 纯 右 值 (prvalue) 。 消 亡 值 同时 是 泛 左 值 和 右 值 。 左 值 和 右 值 的 集合 
不 相交 仍然 没有 改变 。 此 外 ， 一 个 表达 式 或 者 是 泛 左 值 ， 或 者 是 纯 右 值 。 


引入 消亡 值 的 动机 是 为 了 解决 涉及 右 值 引 用 的 场合 下 的 表达 式 的 分 类 。 因 为 这 种 情况 下 表达 
式 兼 有 左 值 的 性 质 ， 不 适合 使 用 传统 的 右 值 ， 却 也 不 能 作为 传统 的 左 值 。 问 题 具 体 体 现在 以 
下 方面 (WG21/N3055]) : 


e 右 值 表示 对 象 本 身 ， 而 右 值 引 用 对 应 存储 中 的 对 象 。 

e 右 值 的 类 型 必须 是 完整 的 ， 同 时 静态 类 型 和 动态 类 型 总 是 一 直 ; 右 值 引 用 需要 有 多 态 
性 ， 人 允许 静态 类 型 和 动态 类 型 不 一 致 。 

e 非 类 类 型 的 右 值 不 被 cv-qualifier 限定 。 绑 定 到 const 或 volatile 限定 对 象 的 右 值 引 
用 必须 保留 限定 符 。 

e 右 值 引 用 和 左 值 引用 一 样 能 绑 定 到 辑 数 。 若 把 返回 右 值 引用 的 函数 调用 作为 右 值 ， 则 需 
要 引入 新 的 函数 右 值 ， 需 要 较 多 的 改动 。 


WIP 


4 标准 转换 
4.1 左 值 到 右 值 转换 
4.2 数组 到 指针 转换 


数组 类 型 的 左 值 可 以 转换 为 指针 类 型 的 右 值 。 
4.3 加 数 到 指针 转换 

4.4 限定 符 转 换 

4.5 浮 点 转换 

4.6 整数 提升 

4.7 通常 算术 转换 

4.8 bool 相关 转换 

4.9 转换 的 阶 


5 表达 式 


6 语句 


7 声明 
8 声明 符 
9 类 


14 模板 
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I m 
第 1 章 文件 结构 
每 个 C++/C 程 序 通常 分 为 两 个 文件 。 
// 错 误 。 没 有 强调 翻译 单元 的 概念 。 
另 一 个 文件 用 于 保存 程序 的 实现 (implementation) ， 称 为 定义 (definition) 文件 。 
// 有 误 。 实 现 不 简单 等 同 于 定义 。 例 如 ， 类 的 完整 声明 也 是 类 的 定义 ， 但 不 是 完整 的 实现 。 头 
文件 也 可 以 存放 其 它 定义 (例如 模板 和 内 联 画 数 的 实现 ) o 
1.2 


建议 1-2-1 


在 C++ 语 法 中 ， 类 的 成 员 画 数 可 以 在 声明 的 同时 被 定义 ， 并 且 自 动 成 为 内 联 画 数 。 这 虽 
然 会 带 来 书 守 上 的 方便 ， 但 却 造成 了 风格 不 一 致 ， 蜂 大 于 利 。 建 议 将 成 员 函 数 的 定义 与 
声明 分 开 ， 不 论 该 函数 体 有 多 人 么 小 。 





/这 条 建议 一 般 不 适用 于 类 模板 。 


1.4 


头 文件 能 加 强 类 型 安全 检查 。 如 果 某 个 接口 被 实现 或 被 使 用 时 ， 其 方式 与 头 文件 中 的 声 
明 不 一 致 ， 编 译 器 就 会 指出 错误 ， 这 一 简单 的 规则 能 大 大 减轻 程序 员 调 试 、 改 错 的 负 
担 。 


/在 使 用 合理 的 情况 下 ， 这 基本 上 是 正确 的 ， 但 头 文件 可 以 导致 其 它 方面 一 像 重 构 (典型 情 
况 如 重 命 名 一 个 豆 数 ) 的 复杂 化 。 


28235 程序 的 版 式 


这 章 基 本 是 主观 内 容 。 读 者 需要 注意 风格 是 有 争议 的 ， 其 中 的 “良好 风格 "或 "不良 风格 ”并非 公 


2.8 


很 多 C++ 教 课 书 受到 Biarne Stroustrup 第 一 本 著作 的 影响 ， 不 知 不 觉 地 采用 了 “以 数据 为 
中 心 ” 的 书写 方式 ， 并 不 见得 有 多 少 道理 。 





TUER A led 即 首先 考虑 类 应 该 提供 什么 样 的 函数 。 这 是 
很 多 人 的 经 验 这 样 做 不 仅 让 自己 在 设计 类 时 思路 清晰 ， 而 且 方 便 别人 阅读 。 因 为 用 
户 最 关心 的 是 接口 ， 谁 愿意 先 看 到 一 堆 私 有 数据 成 员 !” 





Il'Biarne Stroustrup” 拼 写 错误 。C++ 之 父 的 名 字 是 Bjarne Stroustrup 。 有 些 一 厢 情 愿 了 : 
C++ 的 类 定义 中 既然 允许 显 式 地 表示 private 成 员 ， 就 不 是 纯粹 的 接口 描述 方式 。 以 我 个 人 
的 经 验 ， 数 据 成 员 写 在 后 面 可 能 会 导致 顺序 阅读 代码 时 需要 回 滴 。 当 类 定义 长 度 较 小 时 这 点 
影响 不 大 ， 但 定义 长 度 比较 长 的 时 候 (例如 Loki::Functor 里 的 代码 ) 就 会 需要 较 频 繁 地 滚 

， 影 响 代 码 阅 读 效 率 。 


BOS 命名 规则 


3.1 


规则 3-1-1 
标识 符 应 当 直 观 且 可 以 拼 读 ， 可 望 文 知 意 ， 不 必 进 行 "解码 "。 
/这 点 和 此 文 建议 使 用 的 匈牙利 命名 法 有 一 定 程 度 的 矛盾 。 


规则 3-1-3 


命名 规则 尽量 与 所 采用 的 操作 系统 或 开发 工具 的 风格 保持 一 致 。 


/尽管 大 部 分 人 应 该 乐于 支持 这 个 观点 ， 不 过 事实 上 有 时 候 无 法 实现 。 例 如 同时 使 用 标准 库 和 
Windows API 风格 的 代码 。 这 时 倒 不 妨 直 接 约定 允许 根据 上 下 文选 择 要 使 用 的 命名 风格 。 要 
点 是 ， 应 该 让 人 看 出 某 个 名 称 是 用 哪个 风格 命名 的 ， 而 不 至 于 一 眼 就 混淆 来 源 。 


3.2 


规则 3-2-7 

为 了 防止 某 一 软件 库 中 的 一 些 标识 符 和 其 它 软 件 库 中 的 冲突 ， 可 以 为 各 种 标识 符 加 上 能 
反映 软件 性 质 的 前 级 。 例 如 三 维 图 形 标准 OpenGL 的 所 有 库 函 数 均 以 gl 开头 ， 所 有 常量 
(REEL) 均 以 GL 开头 。 


/在 C++ 中 应 该 考虑 是 否 可 以 用 命名 空间 代 葵 前 级。 


RAS 表达 陈 和 基本 语句 


我 真 的 发 觉 很 多 程序 员 用 隐 含 错误 的 方式 写 表 达 式 和 基本 语句 ， 我 自己 也 犯 过 类 似 的 错 


T 天 o 


// 作 者 似乎 没 搞 清 楚 “ 错 误 " 一 词 的 含义 。 
4.3 

规则 4-3-4 

不 要 写成 


if (p== 0) // 容易 让 人 误解 p 是 整 型 变量 
if (p!= 0) 


IZE, C++ 中 的 NULL 典型 地 就 是 int FMB o (考虑 到 成 文 时 间 ， 不 提 新 标准 的 空 
指针 类 型 ) ， 和 int 兼容 。 以 Bjarne Stroustrup 的 观点 ， 这 样 恰恰 会 使 人 误 以 为 NuLL 不 
是 整数 ， 因 此 推荐 用 e 而 不 是 NLL o 


4.3.5 
或 者 改写 成 更 加 简练 的 return (condition ? x : y); 


/这 里 的 括号 是 多 余 的 。 


4.4 


这 节 不 是 语言 本 身 而 是 涉及 语言 实现 的 内 容 。 以 现在 的 观点 来 看 ， 优 化 器 会 可 能 会 在 此 做 一 
些 工 作 。 当 然 了 解 一 些 相 关 原 理 大 体 上 还 是 有 益 的 。 


第 5 章 AE 


常量 是 一 种 标识 符 ， 它 的 值 在 运行 期 间 恒 定 不 变 。C 语 言 用 #qdefine 来 定义 常量 (MAB 
常量 ) 。C++ 语言 除了 #define 外 还 可 以 用 const 来 定义 常量 ( 称 为 const 常 量 ) 。 


// 谭 XX 风格 的 信口开河 。 这 段 引文 中 汉 号 或 者 句号 之 间 的 内 容 ， 没 一 个 能 算得 上 是 正确 的 。 
5.2 


规则 5-2-1 
在 C++ 程序 中 只 使 用 const 常 量 而 不 使 用 宏 常 量 ， 即 const 常 量 完全 取代 宏 常 量 。 


// 这 是 有 问题 的 。 事 实 上 很 多 情况 下 const 只 能 让 编译 器 被 修饰 的 对 象 当 做 只 读 变 量 ， 而 非 编 
译 期 的 真正 意义 的 常量 进行 处 理 。 与 #define 的 符号 常量 (字面 量 ) 相 比 ， 只 读 变量 受到 了 一 
些 限制 ， 例 如 不 能 作 case 的 标号 。 


ehe Im WER st > 
第 6 章 KAUZ iT 
C 语 言 中 ， 画 数 的 参数 和 返回 值 的 传递 方式 有 两 种 : t (pass by value) 和 指针 传 
递 (pass by pointer) 。 
// 错 误 。 形 式 上 ， C 语言 函数 参数 只 按 值 传递 。 所 谓 的 指针 传递 是 按 值 传递 的 一 种 ， 只 是 传递 
参数 的 类 型 是 指针 而 已 。 


6.1 


规则 6-1-1 


参数 的 书写 要 完整 ， 不 要 贪图 省 事 只 写 参 数 的 类 型 而 省 略 参 数 名 字 。 如 果 辑 数 没有 参 
数 ， 则 用 void 填充 。 


/不 妥当。 有 时 候 参 数 的 名 称 并 非 有 意义 ， 像 int max(int, int); 之 类 的 原型 ， 写 了 也 不 会 让 画 数 
的 意义 更 清楚 。 此 外 ， 并 没有 指出 C 画 数 没有 参数 时 参数 列表 为 void ， 这 和 省 略 参 数列 表 

(接受 任意 参数 ) 是 不 同 的 。 而 C++ 中 省 略 参数 列表 和 void 参数 相同 ， 参 数列 表 … 接受 不 
确定 个 数 的 参数 。 


6.2 


规则 6-2-3 


不 要 将 正常 值 和 错误 标志 混在 一 起 返回 。 正 常 值 用 输出 参数 获得 ， 而 错误 标志 用 return 语 
句 返回 。 


/在 C++ 中 可 以 不 使 用 此 规则 而 使 用 异常 (E C 中 理论 上 也 可 以 类 似 地 使 用 setimp/longjmp 
， 但 容易 造成 语义 不 明确 ， 实 际 上 基本 不 用 ) 。 


6.3 


规则 6-3-1 

在 函数 体 的 "入 口 处 ”， 对 参数 的 有 效 性 进行 检查 。 
// 在 函数 接口 语义 明确 的 情况 下 并 非 是 必需 的 。 例 如 C 标准 库 中 以 及 POSIX 标准 中 的 许多 画 
数 。 

规则 6-3-2 

在 豆 数 体 的 “出 口 多 ”对 return 语 句 的 正确 性 和 效率 进行 检查 。 
/同样 不 是 必需 的 。 此 外 检查 可 能 损失 效率 。 

要 搞 清 楚 返 回 的 究竟 是 “ 值 、“ 指 针 " 还 是 “引用 ”。 
// 注 意 返回 对 象 的 语义 ， 但 是 刻意 区 分 “ 值 " 和 "指针 "是 不 必要 的 ， 严 格 上 是 错误 的 一 一 它们 根本 
就 不 是 可 以 比较 的 一 类 概念 。 

建议 6-4-2 

函数 体 的 规模 要 小 ， 尽 量 控制 在 50 行 代码 之 内 。 
/尽管 为 数 不 多 ， 有 些 特殊 情况 ， 如 编译 器 的 某 些 分 析 程 序 ， 是 明显 的 反例 。 


全 As y = cts 

Ble 内 存 管理 
“640Kought to be enough for everybody 
—Bill Gates 1981” 

/和 本 章 主题 无 关 。 

7.1 


内 存 分 配方 式 有 三 种 
// 有 误 。 内 存 分 配 具体 方式 由 实现 决定 ， ié & E RRB X. 


7.2 


漏 了 重复 释放 内 存 的 错误 〈 这 通常 会 引起 程序 崩溃 ) 。 


规则 7-2-1 


用 malloc 或 new 申 请 内 存 之 后 ， 应 该 立即 检查 指针 值 是 否 为 NULL。 防 止 使 用 指针 值 为 
NULL 的 内 存 。 


// 对 C++ 而 言 是 错误 的 。 ISO C++ 关于 内 存 分 配 失 败 的 默认 行为 是 抛 出 std::bad_alloc = 
常 。 如 果 要 使 分 配 失 败 不 抛 出 异常 ， 使 用 nothrow 版 本 ， 或 者 设置 实现 相关 的 编译 选项 。 
规则 7-2-5 
用 free 或 delete 释 放 了 内 存 之 后 ， 立 即将 指针 设置 为 NULL， 防 止 产 生 “ 野 指针 ”。 
// 不 一 定 必 要 。 例 如 指针 是 自动 变量 ， 在 退出 所 在 的 块 作用 域 被 自动 释放 时 。 


7.3.1 
该 语句 企图 修改 常量 字符 串 的 内 容 而 导致 运行 错误 
lA. C 语言 中 字符 串 字面 量 (具有 数组 类 型 ) 未 必 是 常量 。 当 然 还 是 应 该 避免 修改 字符 串 
字面 量 ， 这 是 未 定义 行为 。 
7.9 


为 new 和 malloc 设 置 异常 处 理 函 数 。 例 如 VisualC++ 可 以 用 _set_new_hander 函 数 为 new 
设置 用 户 自己 定义 的 异常 处 理 辑 数 ， 也 可 以 让 malloc 享 用 与 new 相同 的 异常 处 理 辑 数 。 


// 应 该 补充 的 是 ， 标 准 库 有 std::set_new_handler 。 





const 与 virtual 机 制 仅 用 于 类 的 成 员 画 数 。 
// 应 该 强调 “ 非 静 态 " 成 员 加 数 ， 否 则 就 是 错误 的 。 
(虽然 似乎 没有 更 多 明显 的 错误 ， 不 过 遗漏 的 地 方 一 堆 ， 坚 决 不 吐槽 ..…...= =) 


第 9 章 类 的 构造 函数 、 析 构 玉 数 与 赋值 范 数 


9.1 


Stroustrup 的 命名 方法 既 简 单 又 合理 : 让 构造 画 数 、 析 构 男 数 与 类 同名 ， 由 于 析 构 函数 的 
目的 与 构造 画 数 的 相反 ， 就 加 前 缀 '~' 以 示 区 别 。 


1/ 错误。 构造 画 数 和 析 构 函数 是 无 名 的 (这 个 细节 决定 了 一 些 语言 特性 的 限制 ， 例 如 不 能 
using 声明 基 类 的 构造 男 数 ) ， 看 起 来 名 称 和 类 名 相同 的 调用 方式 其 实 是 语法 的 限制 。 


非 内 部 数据 类 型 的 成 员 对 象 应 当 采 用 第 一 种 方式 初始 化 ， 以 获取 更 高 的 效率 。 


// 效 率 在 这 里 倒是 次 要 的 (很 容易 被 编译 器 优化 掉 ) ， 重 要 的 是 语义 。 另 外 ， 初 始 化 列表 的 一 
些 行为 是 受到 特殊 限制 的 ， 例 如 基 类 子 对 象 和 成 员 的 初始 化 顺序 和 异常 。 


9.7 


(仍然 不 想 吐槽 漏 掉 swap & copy 这 样 高 效 可 靠 的 方法 而 在 operator= 实现 里 分 配 内 


Ate E- vw " 
B10 类 的 继承 与 组 合 
首先 标题 有 点 问题 。 类 可 以 继承 ， 组 合 的 应 该 是 类 的 实例 而 非 本 身 。 


如 果 将 对 象 比 作 房 子 ， 那 么 类 就 是 房子 的 设计 图 纸 。 所 以 面向 对 象 设计 的 重点 是 类 的 设 
计 ， 而 不 是 对 象 的 设计 。 


/因果 关系 不 成 立 。 而 且 观 点 是 有 问题 的 ， 仅 适 于 经 典 的 class-based OOD 。 
10.2 


规则 10-2-1 


若 在 逻辑 上 人 A 是 B 的 “一 部 分 ”(a partof) ， 则 不 人 允许 B 从 A 派生 ， 而 是 要 用 A 和 其 它 东 西 组 
合 出 B。 


// 错 误 。 尽 管 一 般 组 合 能 够 胜任 这 项 工作 ， 但 并 非 绝 对 。 可 以 使 用 private 继 承 完成 相同 的 任 
务 ， 并 且 提 供 覆 盖 成 员 函 数 的 特性 。 这 是 组 合 无 法 完成 的 。 


第 11 章 其 它 编程 经 验 


11.1.3 


如 果 在 编写 const 成 员 画 数 时 ， 不 慎 修 改 了 数据 成 员 ， 或 者 调用 了 其 它 非 const 成 员 函 数 ， 
编译 器 将 指出 错误 


// 错 误 : 漏 了 mutable 修饰 的 成 员 这 个 特例 。 
建议 11-3-8 


避免 编写 技巧 性 很 高 代码 。 
// 不 应 该 逃避 。 技 巧 性 高 不 意味 着 难以 理解 ; 即使 难以 理解 ， 也 可 以 通过 注释 弥补 。 当 然 ， 前 
提 是 技巧 要 使 用 得 合理 。 

建议 11-3-13 

把 编译 器 的 选择 项 设置 为 最 严格 状态 。 


/有 时 候 现 实 不 允许 ， 例 如 考虑 已 有 代码 的 兼容 性 ， 需 要 配置 时 会 带 来 额外 的 复 条 性 。 


附录 C : C++/C 试 题 的 答案 与 评分 标 ; 


标准 答案 示例 : const float EPSINON = 0.00001; 
if ((x >= - EPSINON) && (x <= EPSINON) 


// 如 果 是 “标准 ”的 ， 为 什么 不 用 标准 库 的 «float.h» / «cfloat» PY FLT_EPSILON 而 自己 重复 发 
明 轮 子 ? 


头 文件 中 的 ifndefjdefine/endif 干什么 用 ? (54) 


— 
¢ 


Y 


€ : 防止 该 头 文件 被 重复 引用 。 
// 错 误 。 和 条件 编译 显然 不 只 用 于 给 头 文件 增加 header guard 。 
四 、 有 关内 存 的 思考 题 (每 小 题 5 分 ， 共 20 分 ) 
答 : AA. 
因为 GetMemory 并 不 能 传递 动态 内 存 ， 
Test Zi ÉI str 一 直 都 是 NULL. 
strcpy(str "hello world"); 5 88 Fr BB jit 


// 错 误 。 未 定义 行为 不 等 同 于 程序 月 涡 ， 尽 管 很 可 能 是 这 样 。 


FrankHB talk C/C++ 


7s. A E X String ENA, ABA A A ABR (2543) 


String& String::operate -(const String &other) 


IRRF operator 拼写 错误 。 实 现 见 余 就 不 说 了 。 
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[科普 ] 字 符 串 和 字符 串 的 长 度 


Created @ 2012-07-30 01:11, recovered rev 2015-09-15, markdown @ 2015-09-16. 


自 先 明确 几 个 概念 


字符 串 : 形式 语言 理论 研究 的 基本 对 象 之 一 ， 是 字符 的 有 限 序 列 
形式 语言 理论 研究 的 基本 对 象 之 一 ， 是 字符 的 有 限 序列 
以 下 引用 中 文 喂 鸡 “字符 串 ”: 


jk oy 是 叫做 字母 表 的 非 空 有 限 集合 。 » 的 元 素 叫 做 “符号 "或 “字符 "。 在 上 的 字符 
$ (BRF) 是 来 自 3 的 任何 有 限 序列 。 例 如 ， 如 果 > = (e, 13 ， 则 0101 是 在 三 之 
上 的 字符 串 。 字符 串 的 长 度 是 在 字符 串 中 字符 的 数目 (序列 的 长 度 ) ， 它 可 以 是 任何 非 
负 整数 。" 空 串 " 是 在 > 上 的 唯一 的 长 度 为 0 的 字符 串 ， 并 被 指示 为 s 或 入 。 


注意 ， 这 里 的 长 度 的 概念 是 足够 清晰 的 。 
以 下 引用 中 文 喂 鸡 ' 字 符 串 -> 字符 串 数据 类 型 " : 


FHKE 


尽管 形式 字符 串 可 以 有 任意 (但 有 限 ) 的 长 度 ， 实 际 语言 的 字符 串 的 长 度 经 常 被 限制 到 
一 个 人 工 极 大 值 。 一 般 的 说 ， 有 两 种 类 型 的 字符 串 数 据 类 型 : 定 长 字符 串 "， 它 有 固定 的 
极 大 长 度 并 且 不 管 是 否 达到 了 这 个 极 大 值 都 使 用 同样 数量 的 内 存 ; 和 " 变 长 字符 串 "， 它 的 
长 度 不 是 专断 固定 的 并 且 依赖 于 实际 的 大 小 使 用 可 变数 量 的 内 存 。 在 现代 编程 语言 中 的 
多 数字 符 串 是 变 长 字符 串 。 尽 管 叫 这 个 名 字 ， 所 有 变 长 字符 串 还 是 在 长 度 上 有 个 极限 ， 

一 般 的 说 这 个 极限 只 依赖 于 可 获得 的 内 存 的 数量 。 





表示 法 


一 种 常用 的 表示 法 是 使 用 一 个 字符 代码 的 数组 ， 每 个 字符 通常 占用 一 个 字 节 (如 在 ASCIl 
代码 中 ) 或 两 个 字 节 (如 在 UCS-2 这 样 的 Unicode RTH) 。 它 的 长 度 可 以 使 用 一 个 结束 符 
(一 般 是 NUL, ASCII 代码 是 0 ， 在 C 编 程 语言 中 使 用 这 种 方法 ) 。 或 者 在 前 面 加 入 一 个 整 
数值 来 表示 它 的 长 度 (在 Pascal 语言 中 使 用 这 种 方法 ) 。 


【 例 略 】 
可 见 字 符 串 的 长 度 和 存储 的 关系 是 不 唯一 的 。 


在 C/C++ 中 可 以 使 用 多 种 形式 表示 和 存储 的 字符 串 。 最 常见 的 基本 的 字符 串 表 示 形 式 
( 即 C 标 准 库 /C++ 标 准 库 都 使 用 的 形式 ) 通称 为 C 风格 字符 串 (C-style string) ， 在 ISO C++ 
的 学 名 是 NTCTS(null terminated character string) 。 


ISO C++11 


17.3.17 [defns.ntcts] 


NTCTS 


a sequence of values that have character type that precede the terminating null 


character type value charT() 


具体 说 来 ， 一 个 典型 的 场景 是 : 多 余 一 个 元 素 的 char / wchar t / chari6 t / char32_t / 
其 它 实现 允许 的 扩展 字符 类 型 的 数组 可 以 放 一 个 NTCTS 。 


注意 ， 是 a sequence of values 而 不 是 characters ， 表 示 抽 象 的 含义 。 下 面 会 看 到 
character (但 不 是 multibyte character) 在 C++ 标准 库 中 的 明确 受 限 的 意义 。 


顺便 ， 关 于 multibyte character 是 C++ 整体 通用 的 基本 术语 之 一 ， 所 以 独立 于 character 
之 外 考虑 : 


ISO C++11 


1.3.13 [defns.multibyte] 


multibyte character 


sequence of one or more bytes representing a member of the extended character set of 


either the source or the execution environment 


[ Note: The extended character set is a superset of the basic character set (2.3).—end 


note | 
(至 于 字符 、 基 本 执行 字符 集 什 么 的 虽然 是 必要 基础 但 理解 起 来 很 简单 ， 暂且 不 在 此 展 
开 。) 


ISO C++11 


17.5.2.1.4 Character sequences [character.seq] 


FrankHB talk C/C++ 


1 The C standard library makes widespread use of characters and character sequences 
that follow a few uniform conventions: 


— A letter is any of the 26 lowercase or 26 uppercase letters in the basic execution 
character set.167 


— The decimal-point character is the (single-byte) character used by functions that 
convert between a (single-byte) character sequence and a value of one of the floating- 
point types. It is used in the character sequence to denote the beginning of a fractional 
part. It is represented in Clauses 18 through 30 and Annex D by a period, ’.’, which is 
also its value in the "c" locale, but may change during program execution by a call to 

setlocale(int, const char*) ,168 or by a change to a locale object, as described in 
Clauses 22.3 and 27. 


— A character sequence is an array object (8.3.4) A that can be declared as T A [N], 
where T is any of the types char , unsigned char , Or signed char (3.9.1), optionally 
qualified by any combination of const or volatile. The initial elements of the array have 
defined contents up to and including an element determined by some predicate. A 
character sequence can be designated by a pointer value S that points to its first 
element. 


167) Note that this definition differs from the definition in ISO C 7.1.1. 
168) declared in <clocale> (22.6). 


据 此 可 以 定义 更 具体 的 NTBS(null terminated byte string) : 


ISO C++11 
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17.5.2.1.4.1 Byte strings [byte.strings] 


1 Anull-terminated byte string, or NTBS, is a character sequence whose highest- 
addressed element with defined content has the value zero (the terminating null 
character); no other element in the sequence has the value zero.169 


2 The length of an NTBS is the number of elements that precede the terminating null 
character. An empty ntbs has a length of zero. 


3 The value of an NTBS is the sequence of values of the elements up to and including 
the terminating null character. 


4 A static NTBS is an NTBS with static storage duration.170 


169) Many of the objects manipulated by function signatures declared in (21.7) are 
character sequences or NTBSs. The size of some of these character sequences is 
limited by a length value, maintained separately from the character sequence. 


170) A string literal, such as "abc", is a static ntbs. 
NTBS 的 元 素 通 常用 char 类 型 对 象 或 值 表示 。 


NTBS 在 NTCTS 和 character sequence 的 基础 上 明确 了 存储 。 此 外 ， NTBS 区 分 于 
NTCTS 的 定义 的 重要 目的 之 一 是 为 了 明确 (允许 变 长 编码 的 ) 多 字 节 字符 串 NTMBS 的 外 延 
注意 ， 这 里 的 一 些 “ 长 度 " 开 始 体现 出 显著 的 区 别 。 


先 看 定义 : 





ISO C++11 


17.5.2.1.4.2 Multibyte strings [multibyte.strings] 


1 Anull-terminated multibyte string, or NTMBS, is an NTBS that constitutes a sequence 
of valid multibyte characters, beginning and ending in the initial shift state.17 1 


2 Astatic NTMBS is an NTMBS with static storage duration. 


171) An NTBS that contains characters only from the basic execution character set is 
also an NTMBS. Each multibyte character then consists of a single byte. 


可 见 NTMBS 是 NTBS 的 子 集 ， 它 其 中 可 以 包含 多 个 (连续 ) 字 节 组 成 的 字符 。 


按 17.5.2.1.4.1/2 ， NTMBS BI NTBS 的 长 度 是 其 中 包含 的 元 素数 。 这 里 的 “元 素 " 概 念 和 
NTBS 中 有 了 区别 ， 即 强调 作为 NTMBS 时 长 度 是 多 字 节 字符 数 而 不 是 字符 ( 字 节 ) 数 。 显 然 对 
于 一 般 的 NTMBS， 即 便 去 除 结尾 的 空 字符 ， 长 度 和 占用 的 字 节 数 可 以 不 同 。 


但 是 ， ISO C 里 面 关 于 “长 度 " 可 以 有 些 关 键 性 的 不 同 。 简 而 言 之 ，ISO C 标 准 库 使 用 的 
string 相 当 于 NTBS ， 类 似 NTMBS 的 概念 中 长 度 仍 以 字 节 计 : 
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ISO C99/C11(N1570) 


7.1.1/1 A string is a contiguous sequence of characters terminated by and including the 
first null character. The term multibyte string is sometimes used instead to emphasize 
special processing given to multibyte characters contained in the string or to avoid 
confusion with a wide string. A pointer to a string is a pointer to its initial (lowest 
addressed) character. The length of a string is the number of bytes preceding the null 
character and the value of a string is the sequence of the values of the contained 
characters, in order. 


至 于 宽 字 符 串 ， ISOC 单独 处 理 (当然 长 度 也 是 ) ， 某 种 意义 上 从 C 角度 来 说 “ 宽 字 符 串 
不 是 字符 串 ”: 


ISO C99/C11(N1570) 


7.1.1 Definitions of terms 


4 Awide string is a contiguous sequence of wide characters terminated by and 
including the first null wide character. A pointer to a wide string is a pointer to its initial 
(lowest addressed) wide character. The /ength of a wide string is the number of wide 
characters preceding the null wide character and the value of a wide string is the 
sequence of code values of the contained wide characters, in order. 


这 样 对 于 strlen / wcslen 这 样 的 接口 来 说 ， 所 求 的 长 度 是 非常 容易 理解 的 RAE 


末尾 空 字符 的 字符 数 ; RE sizeof(char) / sizeof(wchar t) 就 是 对 应 不 包含 末尾 空 字 符 的 字 
节 数 (对 于 char 来 说 自然 可 以 互 换 ) 。 





对 于 多 字 节 字符 串 ， strlen ( string::size / string::length 也 一 样 ， 反 正 都 不 知道 
编码 ) 的 含义 就 不 那么 直观 了 。 从 和 形式 抽象 相 容 的 定义 来 讲 ，NTMBS 是 恰当 的 ; 而 NTBS 
的 "长度 " 只 是 在 多 字 节 表示 下 的 字 节 数 而 非 字 符 数 。 


大 概 是 因为 习惯 和 历史 原因 ， ISO C/C++ 在 这 里 的 一 致 性 上 做 得 不 太 雅 观 。 不 过 ， 在 未 
强调 编码 /字符 集 前 只 考虑 空 字 符 前 的 字 节 数 也 是 可 以 理解 的 。 


字符 串 字 面 量 


在 C/C++ 中 ， 还 有 一 个 非常 被 错误 理解 的 特性 : 字符 串 字面 量 (string literal) 。 


重点 / 易 错 点 择 要 : 


1. 词 法 形式 


"xxx" 、 L™xxx" .  u"xxx" 等 。 另 外 raw string literal/user defined literal 以 及 后 者 造 
成 的 C++03/C++11 关于 一 个 string literal 是 否 是 一 个 token 的 不 兼容 性 等 等 ， 这 里 关系 不 大 ， 
先 略 过 。 


2. 具 有 静态 存储 期 。 
3. 除 了 u 等 起 始 的 Unicode 字面 量 ， 使 用 的 字符 集 由 实现 定 
L (通常 由 源 文件 的 编码 决定 ) 。 

因此 事实 上 除了 仅 包 含 基本 执行 字符 集中 的 元 素 的 字符 串 字面 量 ， 相 同 的 输入 并 不 一 定 


导致 相同 的 结果 ， 长 度 也 是 由 实现 定义 的 。 


4. 末 尾 隐 合 空 字符 。 


5. 类 型 。 


对 于 C ， 类 型 是 对 应 字符 类 型 的 数组 类 型 ; 对 于 C++ ， 类 型 是 对 应 字符 类 型 的 const 
数组 类 型 。 
6. 修 改 引 起 未 定义 行为 。 


7. 不 等 同 于 字符 串 。 
一 个 字符 串 字 面 量 不 一 定 表 示 一 个 字符 串 。 
关于 最 后 一 点 在 ISO C 里 有 特别 指出 : 


ISO C11(N1570) 


6.4.5 String literals 


6 In translation phase 7, a byte or code of value zero is appended to each multibyte 
character sequence that results from a string literal or literals.78) ... 


78) A string literal need not be a string (see 7.1.1), because a null character may be 
embedded in it by a \o escape sequence. 


例如 ， "123\0\0123" 不 是 一 个 字符 串 ， 而 是 两 个 连续 存储 的 字符 串 〈 注 意 后 面 的 ve 
不 是 一 整个 字符 而 是 和 后 面 的 字符 继续 构成 八进制 转 义 序列 ) 。 


除了 C 风 格 字符 串 ， 还 有 其 它 形 式 。 ISO C++ 标准 库 提供 了 类 模版 std::basic_string 
。 对 于 C++03 ， 它 不 一 定 以 NTCTS 的 形式 存储 ; 而 对 于 C++11 ， 因 为 接口 的 限制 ， 它 的 实 
例 对 象 在 可 观察 行为 上 表现 为 内 部 存储 一 个 NTCTS。 


非 标准 库 的 形式 也 有 很 多 。 比 如 说 M$ 的 _bstrte ;或 者 自己 实现 一 个 类 PASCAL 字符 
串 ， 等 等 。 


对 于 这 类 非 标 准 字符 串 ， 如 果 涉 及 到 多 字 节 字符 且 不 明确 实现 (通常 来 说 对 于 用 户 不 应 
该 明确 实现 ) 的 话 ， 通 常 应 当 约 定 "长 度 " 指 的 是 字符 数 还 是 字 节 数 。 


至 于 数组 长 度 ， 完 全 不 上 道 的 玩意 儿 。 


也 就 是 字符 串 字面 量 用 来 初始 化 数组 约定 隐 式 数组 的 长 ， 和 C 风 格 字符 串 都 没什么 直接 关 
Ro 


新 手指 引 : 


Appended @ 2012-7-30 01:32. 


。 明确 一 般 意义 形式 上 的 字符 串 和 C 风 格 字符 串 的 差异 ; 

。 明确 C 风格 字符 串 和 字符 串 字面 量 的 差异 ; 

。 明确 空 字符 不 是 字符 串 的 内 容 ; 

。 明确 一 般 意 义 上 的 字符 串 长 度 和 字符 集 /编码 相关 ; 

。 明确 C 风格 字符 串 的 长 度 通常 只 讨论 不 包括 末尾 空 字 符 的 字 节 数 。 


剩 下 基本 问题 不 大 了 。 


非 标 准 库 字符 串 进 阶 参考 : 


Appended @ 2012-7-30 01:39. 


e C++1y 候选 的 string_ref 


e LLVM 中 的 各 种 字符 串 表 示 形 式 的 实现 o 


面向 对 象 和 所 谓 的 “面向 过 程 ” 
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摘要 


本 文 综 述 面 向 对 象 ， 尤 其 是 面向 对 象 编程 的 基本 概念 和 一 些 其 它 编 程 范 型 的 比较 ， 并 指 
出 了 现 有 初学 者 的 一 些 常见 误区 。 


1. 面 向 对 象 (Object-Oriented, OO) 综 述 


公认 的 面向 对 象 是 一 种 “思想 ”， 更 精确 地 说 是 一 种 方法 学 (methodology) 。 面 向 对 象 编程 
(OOP) 、 面 向 对 象 分 析 (OOA) 、 面 向 对 象 设计 (OOD) 等 范畴 是 对 此 的 衍生 。 容 易 理解 ， 
OOP 指使 用 OO 的 方法 进行 编程 ; OOA 和 OOD 分 别 指使 用 OO 的 方法 进行 系统 分 析 与 设 
it (可 以 合 称 OOAD ) ， 是 OO 方法 学 在 软件 工程 上 的 点 用 。 对 于 使 用 OO 方法 学 的 软件 开 
R, OOP 是 基础 也 是 具有 更 强 的 普通 性 (即便 使 用 OO 方法 ， 也 并 非 所 有 的 软件 都 有 必要 使 
用 系统 化 的 OOA 和 OOD 进行 开发 ) ， 通 过 OOP 可 以 反映 OO 在 编程 实践 中 的 重要 应 用 ， 
因此 本 文 着 重 论述 OOP 的 有 关内 容 。 关 于 OOAD ， 读 者 可 以 在 了 解 OOP 的 基础 上 自行 学 
习 。 


I. 2% 4250 2! (programing paradigm) 


是 计算 机 编程 中 的 一 种 基本 方式 [en.wiki:programming paradigm]. OOP 和 命 邻 式 编程 
(imperative programing) . ES X 4s f (functional programing) 、 3€ $& 72 (logical 
programing) 并 列 ， 是 当前 主流 的 编程 范 型 [Kurt Normarks]。 此 外 还 有 结构 化 (structured) 、 
声明 式 (deriective) 、 面 向 方面 (aspect-oriented) 、 数 据 驱 动 (data-driven) 、 泛 型 (generic) 、 
并 行 (parallel) 、 元 编程 (metaprograming) 等 各 种 范 型 。 


应 该 注意 的 是 ， 这 些 范 型 并 不 都 是 同一 层次 上 的 风格 ， 且 由 于 分 类 方法 的 不 同 ， 不 都 是 
互 斥 的 。 当 然 也 有 些 范 型 是 对 立 的 : 结构 化 与 非 结 构 化 (non-structured) ， 但 这 是 少数 。 因 此 
通常 在 同一 段 程序 中 使 用 了 一 种 以 上 的 编程 范 型 ， 只 强调 其 中 的 一 部 分 。 


III. Z5 4416 24 42(structued programing)、 命 令 式 编 
程 (imperative programing) 和 过 程式 编程 
(procedural programing) 


早期 的 程序 没有 强调 任何 范 型 ， 是 非 结构 化 的 。 结 构 化 程序 由 子 程序 的 执行 、 选 择 、 和 迭 
代 构 成 ， 无 需 跳 转 。 


命令 式 编程 是 一 种 重要 的 编程 范 型 。 它 和 声明 式 编 程 相 对 ， 强 调 特定 路 径 执 行 的 步骤 
(控制 流 ) 使 程序 的 状态 向 预期 改变 ， 而 非 和 执行 路 径 无 关 的 计算 逻辑 的 表达 。 大 部 分 硬件 
实现 的 体系 结构 都 直接 支持 命令 式 范 型 。 可 执行 的 语句 作为 语言 特性 ， 是 支持 命令 式 编程 的 
重要 特征 。 


过 程式 编程 有 时 被 看 作 是 命令 式 编程 的 同义词 ， 也 可 以 表示 一 种 基于 结构 化 编程 和 过 程 
调用 (procedual call) 的 编程 范 型 [en.wiki:Procedural programming], itf (或 例 程 、 子 例 程 、 
Ak. BR FETS WA BERS) 在 这 里 是 可 以 通过 调用 这 一 手段 被 重复 执行 的 
程序 片段 ， 作 为 语言 特性 ， 是 支持 过 程式 编程 的 语言 的 重要 特征 。 


下 文中 提 及 的 过 程式 编程 都 指 第 二 种 含义 ， 而 第 一 种 直接 称 为 命令 式 编程 。 





无 论 是 命令 式 还 是 过 程式 的 编程 范 型 都 被 许多 编程 语言 广泛 支持 。 对 于 Pascal、C、 
C++、Java 等 语言 ， 两 者 都 是 最 基本 的 (使 用 时 几乎 无 法 避免 的 ) 范 型 ， 而 结构 化 结构 化 通 
过 这 两 个 范 型 的 上 层 被 体现 。 


IV. 作 为 编程 范 型 (programing paradigm) 的 OOP 
OO 程序 可 以 看 成 一 系列 对 象 的 交互 ， 而 不 是 如 传统 的 过 程式 编程 那样 执行 一 系列 任务 
(过 程 ) 。 
如 OO 字面 所 说 ， 对 象 (object) 是 其 中 的 一 个 要 素 。 


OOP 中 每 个 对 象 都 有 能 力 接 收 、 人 处 理 和 向 其 它 对 象 发 送 消息 (message) ， 可 以 被 看 作 具 
有 不 同 角色 或 职责 的 独立 单元 。 对 象 的 动作 (或 “方法 (method) ") 与 之 紧密 相关 。 例 如 ， 
OOP 数据 结构 倾向 于 携带 自身 的 操作 (或 至 少 从 类 似 的 对 象 或 类 “继承 ”) 。 





对 于 过 程式 编程 ， 程 序 可 以 被 分 解 为 若干 过 程 。 OOP 的 做 法 不 同 它 分 解 程序 为 若干 
对 象 和 对象 的 交互 (尽管 其 中 的 “方法 ”仍然 可 以 扮演 过 程式 编程 中 的 过 程 的 角色 ) 。 

传统 的 过 程式 编程 中 过 程 对 数据 的 访问 是 不 加 外 部 限制 的 ， 而 OOP 的 做 法 不 同 它 使 
用 访问 权限 控制 等 特性 ， 强 调 封 装 ， 鼓 励 程序 员 使 某 一 部 分 的 数据 仅 可 被 特定 的 程序 片段 
(过 程 ) 访问 ， 以 减少 可 能 发 生 的 错误 。 





对 象 和 消息 是 OOP 的 核心 。 OOP 和 对 类 型 系统 的 抽象 导致 类 (class) 概念 的 出 现 。 使 用 
类 作为 核心 特性 的 语言 实现 OOP 的 基于 类 的 风格 的 (class-basea style) OO ， 这 是 支持 OOP 
的 语言 中 的 主流 ， 如 C++ 、 Java 。 与 之 不 同 的 是 基于 原型 的 风格 的 (prototype-based style) 
OO， 如 ECMAScript。 


当前 流行 的 C++, Java 等 “主流 面向 对 象 语言 ”( 事 实 上 把 C++ 称 为 面向 对 象 语言 并 太 
不 恰当 ， 见 下 文 ) ， 其 实 并 不 能 算 最 符合 OOP 的 基本 要 义 。 原 始 的 OOP 的 观点 ， 见 面向 对 
象 之 父 Alan Kay BS ig ie Kay] 。 


OOP 常 具有 如 下 几 个 特性 : 数据 抽象 、 封 装 、 消 息 、 组 件 化 、 多 态 和 继承 。 注 意 ， 这 些 
特性 并 非 同时 提出 的 ， 因 此 并 非 都 是 OOP 的 必要 组 成 部 分 ; 也 并 非 OOP 的 专利 。 


应 该 指出 的 是 ， 即 便 不 使 用 直接 的 OOP 特性 ， 也 可 以 进行 OOP 。 例 如 C 可 以 使 用 结构 
体 模 拟 类 。 
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.语言 相关 的 实例 : Java 和 C++ 的 OOP 和 其 它 
的 支持 策略 的 比较 


有 些 语言 为 特定 的 范 型 设计 ， 鼓 励 用 户 使 用 特定 的 范 型 。 如 Java 鼓吹 的 “简单 ”的 “ 纯 ” 
OOP 。 但 是 通过 上 文 可 以 知道 ， Java 支持 的 面向 对 象 只 是 一 种 基于 类 的 风格 的 OOP ， 并 且 
血统 远 非 纯净 。 另 外 ， Java 不 支持 多 重 (实现 ) 继承 而 只 支持 接口 继承 ， 即 便 仅 从 基于 类 风 
格 的 OOP 上 来 说 也 有 缺陷 (由 于 这 点 ， 加 上 Java 缺乏 其 它 一 些 有 用 的 特性 ， 这 给 混入 
(mixin) 等 带 来 麻烦 ， 也 容易 造成 代码 兄长 ) 。 语 言 构造 也 决定 Java 无 法 摆脱 命令 式 和 过 程 
式 编程 ， 在 这 个 意义 上 并 不 “ 纯 "。 (尽管 Java 支持 泛 型 ， 但 功能 过 于 在 此 忽略 。) 使 
用 好 Java 需要 用 户 对 OOP 的 较 清晰 全 面 的 理解 ， 事 实 上 一 点 都 不 “简单 


si 


另外 一 些 语言 不 强调 (其 至 弱化 ) 特定 的 范 型 ， 鼓 励 用 户 选择 合适 的 范 型 ， 如 C++ 。 


关于 OOP 两 者 还 有 一 些 整 体 上 重要 的 、 原 则 性 的 不 同 。 Java 的 OOP 特性 支持 的 设计 
试图 减少 OOP 和 OOAD 的 差距 ， 使 OOAD 的 结果 尽量 能 直接 OOP 对 上 应。 初衷 可 以 理解 ， 
但 效果 不 见得 好 (取决 于 用 户 设计 的 合理 性 ) ， 反 而 几乎 肯定 增 大 了 语义 上 的 复杂 性 一 一 这 
点 的 一 个 例子 是 “继承 "不 考虑 private 成 员 。 而 C++ 的 设计 事实 上 无 视 这 一 点 。 C++ 的 class 
type 并 不 见得 就 是 OOAD 意义 上 的 class ， 它 可 以 是 类 似 Java 里 的 interface 或 者 和 OOP 
无 关 的 东西 一 一 如 元 编程 用 到 的 traits 。 这 点 可 能 导致 学 习 上 的 困难 ， 但 增 大 了 灵活 性 。 


VIL : 一 些 需要 避免 的 误区 


首先 ， 所 谓 “ 面 向 过 程 ” 并 不 是 公认 的 编程 范 型 的 名 称 ， 无 法 和 过 程式 、 OOP 等 相 提 并 
论 。 提 出 这 个 生 造 的 术语 可 能 只 是 效仿 “面向 对 象 " 的 构 词 ， 却 忽略 了 其 中 的 内 泗 。 通 常 使 用 这 
个 术语 通常 似乎 是 想 表达 “过 程式 编程 。 在 已 有 更 精确 和 广泛 接受 的 术语 的 情形 下 ， 不 应 该 使 
用 这 种 模糊 的 称谓 。 


其 次 ， 关 于 语言 和 范 型 。 尽 管 语言 可 以 直接 通过 语言 特性 支持 范 型 ， 但 范 型 实质 上 是 跟 
语言 无 关 的 。 尤 其 对 于 C++ 而 言 ， "hay 支持 面向 对 象 " 作 为 和 其 它 语言 的 主要 区 别 ， 是 没 
根据 的 。 
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关于 main KAA Re [T3 [B] fà 


Created @ 2012-11-07. 
发 现 以 前 说 的 太 需 碎 ， 不 太 好 引用 .….…… 整理 一 下 。 


目前 我 看 到 的 比较 靠 谱 的 说 法 (有 正确 的 引用 出 处 ， 并 指出 了 实现 扩展 ) 
http://homepage.ntlworld.com/jonathan.deboynepollard/FGA/legality-of-void-main.html 


http://tieba.baidu.com/p/626323902 
1 而 这 里 的 说 法 是 有 问题 的 。 
这 里 再 解释 一 下 ISO C/C++ 中 对 main 的 要 求 。 


0 标准 版 本 说 明 


基本 内 容 人 参照 术语 和 文献 列表 。 


在 本 文 问题 上 ，ANSI C89 和 C90、C99 和 C11、 C++ 标准 各 个 版 本 这 三 组 标准 之 间 分 别 
没有 实质 变化 (或 根本 一 模 一 样 ) ， 所 以 只 引用 最 早 的 标准 文本 。 


E3 dab EB n > 
1 首先 是 几 个 背景 知识 
本 文 所 讲 的 实现 即 语言 实现 ， 可 以 是 编译 器 + 链接 器 等 等 ， 可 以 是 解释 环境 。 一 般 是 前 者 。 K 


于 implementation-defined 等 确切 含义 可 以 Google 。 


1.1.ANSI C897 HAE HeH REA, aA int 


也 就 是 说 main() 其 实 是 int main() , foo(); HR int foo(); 。 尤 其 注意 main() 绝 


不 是 void main() o 


这 在 ISO C99 开始 以 及 1SO C++ 中 是 不 允许 的 。 


1.2 关于 参数 列表 


C 语 言 的 (void) 或 画 数 定义 中 的 () 表示 不 接受 任何 参数 ， 相 当 于 C++ 的 O ， 也 和 
C++ 的 (void) 等 价 。 


C 语言 的 () 在 图 数 定义 外 表示 接受 任何 参数 ， 相 当 于 C++ 的 (...) © 


但 是 ， 声 明 中 的 空 参 数列 表 ( 非 原型 声明 )“ () “的 使 用 是 过 时 用 法 〈 容 易 造 成 误会 ) ， 不 
建议 使 用 。 


所 以 在 C 语言 中 ， 声 明 时 最 好 不 要 省 略 (void) 中 的 void ， 要 是 省 略 就 不 是 预期 想 要 的 函 
数 原 型 了 。 在 定义 中 可 以 使 用 O ， 如 int main(){} ， 同 int main(void)) 。 但 若 要 保证 
声明 和 定义 通用 ， 只 用 (void) ZmENZUSB S337. 


而 C++ 中 ， 不 接受 任何 参数 的 参数 列表 写成 (void) 是 不 必要 的 〈 虽 然 也 没 错 ， 但 正式 写法 
ABIX PPT IBY FR) 。 


相关 依据 : 
ISO C11(N1570) 


6.7.6.3/14 An identifier list declares only the identifiers of the parameters of the 
function. An empty list in a function declarator that is part of a definition of that function 
specifies that the function has no parameters. The empty list in a function declarator 
that is not part of a definition of that function specifies that no information about the 
number or types of the parameters is supplied.145) 


145) See "future language directions" (6.11.6). 


6.11.6 Function declarators 


1 The use of function declarators with empty parentheses (not prototype-format 
parameter type declarators) is an obsolescent feature. 


1.3 实现 环境 分 类 


ISO C/C++ 中 ， 根 据 对 环境 的 要 求 ， 分 为 两 类 ， 一 类 是 独立 实现 (freestanding 
implementation) ， 另 一 类 是 宿主 实现 (hosted implementation) 。 





独立 实现 对 环境 的 要 求 比较 低 ， 所 以 更 自由 。 宿 主 实现 一 一 一 般 可 以 看 作 是 有 操作 系统 的 实 
现 ， 提 供 了 比较 多 的 底层 接口 ， 约 束 比 较 多 。 


当然 C 和 C++ 之 间 对 两 者 的 要 求 有 所 不 同 。 为 简化 问题 ， 除 了 main 相关 的 部 分 在 下 文 讨 
论 以 外 ， 不 再 提 及 。 

1.4 ISO 标准 文档 中 的 情态 动词 的 含义 

以 下 全 部 节录 〈( 供 参考 ， 只 想 看 结论 的 可 以 跳 过 ) o 

表格 项 分 隔 使 用 | ， 同 一 格 内 不 同 项 使 用 / 。 
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ISO/IEC Directives, Part 3 Annex 
E(normative) 


Verbal forms for the expression of 
provisions 


NOTE Only singular forms are shown. 


The verbal forms shown in Table E.1 shall be used to indicate requirements strictly to 
be followed in order to conform to the standard and from which no deviation is 
permitted. 


Table E.1 — Requirement 


Verbal form Equivalent expressions for use in exceptional cases(see 6.6.1.3) 
shall | is to/is required to/it is required that/has to/only ... is permitted/it is necessary 


shall not | is not allowed [permitted] [acceptable] [permissible]/is required to be not/is 
required that ... be not/is not to be 


Do not use “must” as an alternative for "shall". (This will avoid any confusion between 
the requirements of a standard and external statutory obligations.) 


Do not use “may not” instead of “shall not" to express a prohibition. To express a direct 
instruction, for example referring to steps to be taken in a test method, use the 
imperative mood in English. 


EXAMPLE "Switch on the recorder." 


The verbal forms shown in Table E.2 shall be used to indicate that among several 
possibilities one is recommended as particularly suitable, without mentioning or 
excluding others, or that a certain course of action is preferred but not necessarily 
required, or that (in the negative form) a certain possibility or course of action is 
deprecated but not prohibited. 


Table E.2 — Recommendation 


Verbal form Equivalent expressions for use in exceptional cases(see 6.6.1.3) 
should | it is recommended that/ought to 


should not | it is not recommended that/ought not to 
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In French, do not use “devrait” in this context. 


The verbal forms shown in Table E.3 are used to indicate a course of action permissible 
within the limits of the standard. 


Table E.3 — Permission 


Verbal form Equivalent expressions for use in exceptional cases(see 6.6.1.3) 
may | is permitted/is allowed/is permissible 

need not | it is not required that/no ... is required 

Do not use “possible” or “impossible” in this context. 

Do not use “can” instead of “may” in this context. 


NOTE 1 “May” signifies permission expressed by the standard, whereas “can” refers to 


the ability of a user of the standard or to a possibility open to him. 


NOTE 2 The French verb “pouvoir” can indicate both permission and possibility. For 
clarity, the use of other expressions is advisable if otherwise there is a risk of 
misunderstanding. 


The verbal forms shown in Table E.4 are used for statements of possibility and 
capability, whether material, physical or causal. 


Table E.4 — Possibility and capability 


Verbal form Equivalent expressions for use in exceptional cases(see 6.6.1.3) 
can | be able to/there is a possibility of/it is possible to 
cannot | be unable to/there is no possibility of/it is not possible to 
NOTE See note 1 to Table E.3. 
这 里 最 需要 注意 的 有 两 点 : 
e shall 的 意义 ， 以 及 区 分 shall 和 should 。 


e shall 表示 要 求 ， should 表示 建议 。 这 点 举 个 例子 ， 在 ISO C++ 关于 容器 的 size() 的 
复 条 度 上 应 该 能 坑 到 一 些 人 。 


ISO C++98/03 在 表格 的 note 里 要 求 “should”O(1) ， 因 此 libstdc++ 的 std: :list::size() 
可 以 实现 为 O(n) 的 ， 类 似 std::distance(1.begin(), l.end()) ， 不 违反 标准 要 求 。 


而 ISO C++11 AET "shall" O(1) ， 这 种 实现 就 不 符合 标准 了 。 
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can 的 含义 。 


应 该 注意 can 表示 可 能 性 ， 而 不 是 要 求 。 和 表示 准许 的 may 也 应 该 有 清楚 的 区 别 。 


2 正题 


附 一 个 参考 链接 : http://stackoverflow.com/questions/1765686/correctly-declaring-the-main- 
function-in-ansi-c 


2.1 ANSI C/ISO C 对 独立 环境 的 规定 


ANSI C89 是 这 样 的 : 


2.1.2.1 Freestanding environment 


In a freestanding environment (in which C program execution may take place without 
any benefit of an operating system), the name and type of the function called at 
program startup are implementation-defined. There are otherwise no reserved external 
identifiers. Any library facilities available to a freestanding program are implementation- 
defined. 


The effect of program termination in a freestanding environment is implementation- 
defined. 


可 见 独立 环境 中 不 要 求 有 main BEE AAO, SRR main 的 原型 。 


ISO C99 是 这 样 的 : 


5.1.2.1 Freestanding environment 


1 In a freestanding environment (in which C program execution may take place without 
any benefit of an operating system), the name and type of the function called at 
program startup are implementation-defined. Any library facilities available to a 
freestanding program, other than the minimal set required by clause 4, are 
implementation-defined. 


2 The effect of program termination in a freestanding environment is implementation- 
defined. 


没什么 变化 。 


ISO C++98 是 这 样 的 : 
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3.6.1 Main function [basic.start.main] 


1 Aprogram shall contain a global function called main, which is the designated start of 
the program. It is implementation-defined whether a program in a freestanding 
environment is required to define a main function. [Note: in a freestanding environment, 
startup and termination is implementation-defined; startup contains the execution of 
constructors for objects of namespace scope with static storage duration; termination 
contains the execution of destructors for objects with static storage duration. ] 


2.2 ANSI C89 对 宿主 环境 的 规定 
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2.1.2.2 Hosted environment 


A hosted environment need not be provided, but shall conform to the following 
specifications if present. 


"Program startup" 


The function called at program startup is named main . The implementation declares no 
prototype for this function. It can be defined with no parameters: 


int main(void) { /*...*/ } 


or with two parameters (referred to here as argc and argv , though any names may be 
used, as they are local to the function in which they are declared): 


intemainaintrarger chari anovi] A S MNT 


If they are defined, the parameters to the main function shall obey the following 
constraints: 


e The value of argc shall be nonnegative. 
e argv[argc] shall be a null pointer. 


e |f the value of argc is greater than zero, the array members argv[0] through 
argv[argc-1] inclusive shall contain pointers to strings, which are given 
implementation-defined values by the host environment prior to program startup. 
The intent is to supply to the program information determined prior to program 
startup from elsewhere in the hosted environment. If the host environment is not 
capable of supplying strings with letters in both upper-case and lower-case, the 
implementation shall ensure that the strings are received in lower-case. 


e |fthe value of argc is greater than zero, the string pointed to by argv[0] represents 
the program name ; argv[o][e] shall be the null character if the program name is 
not available from the host environment. If the value of argc is greater than one, 
the strings pointed to by argv[1] through argv[argc-1] represent the program 
parameters . 


e The parameters argc and argv and the strings pointed to by the argv array shall 
be modifiable by the program, and retain their last-stored values between program 
startup and program termination. 


对 宿主 环境 可 能 有 的 (can) : 有 main, JfH main 的 原型 是 这 里 提 到 的 其 中 之 一 。 若 使 用 
第 二 种 原型 ， 参 数 有 一 定 限制 (shall) 。 arge 必须 非 负 ， argv[argc] 是 空 指针 。 argv[o] 
. argv[argc-1] 表示 程序 参数 。 一 般 实现 中 支持 使 用 命令 行 传递 这 些 参数 。 
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但 这 种 说 法 显然 太 隐 睡 了 。 
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5.1.2.2 Hosted environment 


1 Ahosted environment need not be provided, but shall conform to the following 
specifications if present. 


5.1.2.2.1 Program startup 


1 The function called at program startup is named main . The implementation declares 
no prototype for this function. It shall be defined with a return type of int and with no 
parameters: 


amiteima mio RT ESSE 


or with two parameters (referred to here as argc and argv, though any names may be 
used, as they are local to the function in which they are declared): 


Tritech TES VAS] D sb Ye cen NY 
or equivalent;9) or in some other implementation-defined manner. 


2 If they are declared, the parameters to the main function shall obey the following 
constraints: 


— The value of argc shall be nonnegative. 
一 argv[argc] shall be a null pointer. 


— |f the value of argc is greater than zero, the array members argv[o] through 

argv[argc-1] inclusive shall contain pointers to strings, which are given 
implementation-defined values by the host environment prior to program startup. The 
intent is to supply to the program information determined prior to program startup from 
elsewhere in the hosted environment. If the host environment is not capable of 
supplying strings with letters in both uppercase and lowercase, the implementation shall 
ensure that the strings are received in lowercase. 


— lf the value of argc is greater than zero, the string pointed to by argv[o] represents 
the program name; argv[e][e] shall be the null character if the program name is not 
available from the host environment. If the value of argc is greater than one, the 
strings pointed to by argv[1] through argv[argc-1] represent the program 
parameters. 


— The parameters argc and argv and the strings pointed to by the argv array shall 
be modifiable by the program, and retain their last-stored values between program 
startup and program termination. 


这 里 实质 的 变化 是 明确 要 求 ANSI C 中 的 两 种 原型 必须 被 宿主 实现 接受 。 而 or in some other 
implementation-defined manner 的 妥协 可 以 看 成 是 对 can 的 兼容 。 
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2.4 ISO C++98 的 规定 


3.6 Start and termination [basic.start] 


3.6.1 Main function [basic.start.main] 


1 Aprogram shall contain a global function called main, which is the designated start of 
the program. It is implementation-defined whether a program in a freestanding 
environment is required to define a main function. [Note: in a freestanding environment, 
startup and termination is implementation-defined; startup contains the execution of 
constructors for objects of namespace scope with static storage duration; termination 
contains the execution of destructors for objects with static storage duration. ] 


2 An implementation shall not predefine the main function. This function shall not be 
overloaded. It shall have a return type of type int, but otherwise its type is 
implementation-defined. All implementations shall allow both of the following definitions 


of main: 

eitis WERUMO} 4h YES Tego. S4, ds 

and 

inte maintint aroc ho r arov TIN Ze toe e741 


In the latter form argc shall be the number of arguments passed to the program from 
the environment in which the program is run. If argc is nonzero these arguments shall 
be supplied in argv[o] through argv[argci] as pointers to the initial characters of 
nullterminated multibyte strings (NTMBSs)(17.3.2.1.3.2) and argv[e] shall be the 
pointer to the initial character of a NTMBS that represents the name used to invoke the 
program or "" . The value of argc shall be nonnegative. The value of argv[argc] shall 
be O. [Note: it is recommended that any further (optional) parameters be added after 


argv .] 


3 The function main shall not be used (3.2) within a program. The linkage (3.5) of main 
is implementation-defined. A program that declares main to be inline or static is 
illformed. The name main is not otherwise reserved. [Example: member functions, 
classes, and enumerations can be called main, as can entities in other namespaces. ] 


ISO C++ 的 规定 和 ISO C. 类 似 ， 但 有 几 点 重要 的 不 同 : 


e a) 程 序 必须 包含 全 局 man 。 但 在 独立 实现 中 不 一 定 用 到 main 作为 程序 启动 的 入 口 ， 
事实 上 程序 启动 过 程 是 由 实现 定义 的 。 

° D ATENE main 《以免 用 户 定义 的 main A ON one definition rule 导致 错 
R) 。 注 意 这 不 和 上 文 矛 盾 。 例 如 ， 链 接 器 可 以 在 生成 可 执行 二 进 制 映像 时 决定 是 否 应 
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该 添加 main 的 定义 。 
e c)main 必 须 返 回 int o 
e d) 全 局 main 禁止 被 使 用 。 因 此 不 像 C， C++ main 无 法 递归 调用 。 &::main 也 是 


错误 的 。 


3.1 main 的 兼容 性 
别 盲目 认为 哪个 是 对 的 哪个 是 错 的 ， 标 准 没 这 么 简单 。 


void main() 在 C 仍然 可 以 是 符合 标准 (conforming) 的 扩展 ， 只 要 有 文档 一 一 看 我 一 开始 给 
的 链接 。 只 不 过 依赖 implementation-defined 不 是 strictly conforming £T, THIER IS. 


在 C++ 中 不 返回 int 的 main 直接 不 符合 标准 。 


3.2 基于 保证 可 移植 性 的 入 口 函 数 使 用 的 建议 策略 
以 下 不 适用 于 自己 实现 语言 或 者 写 操 作 系 统 之 类 。 


。 a) 确 定 实现 。 如 果 是 独立 实现 ， 自 己 翻 实现 文档 ， 否 则 
e b) 如 无 特殊 必要 ， 尽 量 使 用 标准 明文 规定 的 两 种 形式 ; 
。 C) 使 用 其 它 形式 应 能 找到 文档 ， 并 且 确 保 当 前 需求 能 容忍 由 此 导致 的 可 移植 性 缺陷 。 


附 


ISO C99 £j, MISO C++98 起 ， 全 局 main 若 没 有 return ， 相 当 于 末尾 隐 含 return 6; 

。 对 于 一 般 实 现 ， 返 回 0 表示 程序 执行 成 功 。 C/C++ 标准 库 宏 ExIT_succEss 表示 由 实现 定 
义 的 成 功 返 回 状 态 。 EXIT_succEss 可 用 于 exit FH, MM main 终止 和 exit 语义 上 等 

价 ， 所 以 也 可 以 return EXIT_succESS， 代 蔡 。 
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Created @ 2013-01-09, markdown @ 2014-11-09. 


Ba: 本 文 需要 有 人 门 级 的 语言 常识 和 一 定 的 语言 理论 基础 。 


1. 关 于 求 值 (evaluation) 


C99/C++03 虽然 正式 地 使 用 到 这 个 词 ， 但 没有 明确 具体 的 外 延 。 
C11/C++11 则 把 evaluation 作为 局 部 术语 给 出 了 明确 了 的 定义 : 


ISO C11(N1570) 


5.1.2.3 


2 访问 一 个 volatile x12&, 修改 一 个 对 象 , 一 个 文件 , 或 者 调用 一 个 函数 ， 这 些 操 作 都 算 副 
VE FH, 副作用 是 执行 环境 状态 的 变化 . 表达 式 的 求 值 一 般 包 插值 的 计算 (both value 
computations) 和 引发 副作用 . 一 个 左 值 表 达 式 的 值 计算 包括 确定 左 值 所 指示 的 对 象 的 同 
一 性 (determining the identity of the designated object). 


ISO C++11 


1.9 


12 通过 volatile 省 相仿 (au 10) 访 问 一 个 指定 对 象 , 修改 一 个 对 象 , 调用 一 个 库 IO 
HM, 或 者 调用 一 个 函数 ， 这 些 操作 都 算 副 作用 , 副作用 是 执行 环境 状态 的 变化 . 
Evaluation of an expression (or a sub-expression) in general includes both value 
computations (including determining the identity of an object for glvalue evaluation and 
fetching a value previously assigned to an object for prvalue evaluation) and initiation of 
side effects. When a call to a library I/O function returns or an access to a volatile object 
is evaluated the side effect is considered complete, even though some external actions 
implied by the call (such as the I/O itself) or by the volatile access may not have 


completed yet. 


即 求 值 在 一 般 意 义 上 包括 值 的 计算 (value computations) 和 副作用 的 产生 (initiation of side 
effects)。 其 中 左 值 (C++ 中 glvalue 同 之 前 的 左 值 |lvalue) 的 求 值 包含 确定 左 值 所 指示 的 对 象 的 
同一 性 。 
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2. 4] 31217 7; (observable behavior) 


上 面 有 一 点 需要 特别 注意 : volatile 对 象 的 读 取 也 是 副作用 。 volatile 的 根本 含义 
根本 体现 在 对 可 观察 行为 的 影响 ， 而 可 观察 行为 则 约定 抽象 语义 和 现实 实现 中 的 程序 语义 的 
联系 (这 事实 上 决定 了 一 个 符合 标准 的 实现 最 多 能 通过 修改 程序 语义 优化 到 的 界限 ) 


ISO C11(N1570) 


1 The semantic descriptions in this International Standard describe the behavior of an 
abstract machine in which issues of optimization are irrelevant. 


6 The least requirements on a conforming implementation are: 


— Accesses to volatile objects are evaluated strictly according to the rules of the 
abstract machine. 


— At program termination, all data written into files shall be identical to the result that 
execution of the program according to the abstract semantics would have produced. 


— The input and output dynamics of interactive devices shall take place as specified in 
7.21.3. The intent of these requirements is that unbuffered or line-buffered output 
appear as soon as possible, to ensure that prompting messages actually appear prior 
to a program waiting for input. This is the observable behavior of the program. 


ISO C++11 
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1.9 


1 The semantic descriptions in this International Standard define a parameterized 
nondeterministic abstract machine. This International Standard places no requirement 
on the structure of conforming implementations. In particular, they need not copy or 
emulate the structure of the abstract machine. Rather, conforming implementations are 
required to emulate (only) the observable behavior of the abstract machine as 
explained below.5 


5) This provision is sometimes called the "as-if" rule, because an implementation is free 
to disregard any requirement of this International Standard as long as the result is as if 
the requirement had been obeyed, as far as can be determined from the observable 
behavior of the program. For instance, an actual implementation need not evaluate part 
of an expression if it can deduce that its value is not used and that no side effects 
affecting the observable behavior of the program are produced. 


8 The least requirements on a conforming implementation are: 


— Access to volatile objects are evaluated strictly according to the rules of the abstract 
machine. 


— At program termination, all data written into files shall be identical to one of the 
possible results that execution of the program according to the abstract semantics 
would have produced. 


— The input and output dynamics of interactive devices shall take place in such a 
fashion that prompting output is actually delivered before a program waits for input. 
What constitutes an interactive device is implementation-defined. 


These collectively are referred to as the observable behavior of the program. [ Note: 
More stringent correspondences between abstract and actual semantics may be 
defined by each implementation. —end note ] 


3. 求 值 的 顺序 
和 Java, C£ 等 不 同 ， 对 于 C 和 C++ 来 说 ， 表 达 式 的 求 值 顺序 和 字面 上 (从 左 到 右 ) 
没有 一 致 对 应 关系 ， 也 就 是 说 优先 级 、 结 合 性 等 纯粹 是 语法 上 的 现象 ， 不 决定 语义 。 


求 值 的 顺序 由 额外 的 规则 指定 。 原 则 上 和 若 不 能 决定 能 得 到 可 预测 的 结果 的 ， 则 指定 为 未 
XE 3L 13 X (undefined behavior) ， 对 结果 不 做 出 任何 保证 和 要 求 。 这 在 C99 和 C++03 都 有 一 
定 的 体现 ， 都 用 到 了 序列 点 (sequence point) 的 概念 : 


ISO C99 
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9.1.2.3 


2 Accessing a volatile object, modifying an object, modifying a file, or calling a function 
that does any of those operations are all side effects,11) which are changes in the state 
of the execution environment. Evaluation of an expression may produce side effects. At 
certain specified points in the execution sequence called sequence points, all side 
effects of previous evaluations shall be complete and no side effects of subsequent 
evaluations shall have taken place. (A summary of the sequence points is given in 
annex C.) 


6.5 


2 Between the previous and next sequence point an object shall have its stored value 
modified at most once by the evaluation of an expression. Furthermore, the prior value 
shall be read only to determine the value to be stored.70) 
70) This paragraph renders undefined statement expressions such as 

abe apu Sp ale 

a[it+] = i; 

while allowing 
a = e en 15 
E ai 


ISO C++03 


1.9 


7 Accessing an object designated by a volatile lvalue (3.10), modifying an object, calling 
a library I/O function, or calling a function that does any of those operations are all side 
effects, which are changes in the state of the execution environment. Evaluation of an 
expression might produce side effects. At certain specified points in the execution 
sequence called sequence points, all side effects of previous evaluations shall be 
complete and no side effects of subsequent evaluations shall have taken place.7) 


7) Note that some aspects of sequencing in the abstract machine are unspecified; the 
preceding restriction upon side effects applies to that particular execution sequence in 
which the actual code is generated. Also note that when a call to a library I/O function 
returns, the side effect is considered complete, even though some external actions 
implied by the call (such as the I/O itself) may not have completed yet. 


C11 & C++11 的 赋值 相关 表达 式 求 值 54 


FrankHB talk C/C++ 


而 在 C++11 中 ， 根 据 提案 WG21/N1944， 序 列 点 被 先 序 (sequenced before) 二 元 关系 等 术 
语 取代 。WG21/N2052 在 此 基础 上 ( 另 一 个 基础 是 约定 内 存 模型 的 WG21/N2052) 阐明 了 并 


发 的 内 存 模型 一 一 关于 适合 多 线程 环境 下 的 特定 并 发 语义 ， 本 文 从 略 。 尽管 ISO C 看 起 


来 起 先 并 不 热心 ， 最 后 还 是 接受 了 这 个 修正 ， 但 在 ISO C11 (至 少 是 N1570) 中 保留 了 序列 点 
的 说 法 。 (另外 ISO C++11 似 乎 遗漏 了 sequenced after， 尽 管 从 下 文 可 以 看 出 ， 在 赋值 的 定 


义 中 这 个 词组 正式 地 被 使 用 。 ) 
WG21/N1944 


According to my best guesses, there are at least two factors which have inhibited 
progress in the C committee: 


WG14 seems collectively to believe that the problem is not urgent or compelling; 
that most implementers and experts understand the situation well enough to agree 
on the essentials of the requirements, and that most of the confusion can be 
treated as an education problem (not within the committee's scope). 


Most of the proposals to clarify matters are so radical that they are (rightly) met 
with considerable suspicion, and (accurately) judged to require much deep 
consideration to ensure that they don't constitute an unacceptable change to the 
status quo. 


ISO C11(N1570) 


5.1.2.3 


3 Sequenced before is an asymmetric, transitive, pair-wise relation between 
evaluations executed by a single thread, which induces a partial order among those 
evaluations. Given any two evaluations A and B, if A is sequenced before B, then the 
execution of A shall precede the execution of B. (Conversely, if A is sequenced before 
B, then B is sequenced after A.) If A is not sequenced before or after B, then A and B 
are unsequenced. Evaluations A and B are indeterminately sequenced when A is 
sequenced either before or after B, but it is unspecified which.13) The presence of a 
sequence point between the evaluation of expressions A and B implies that every value 
computation and side effect associated with A is sequenced before every value 
computation and side effect associated with B. (A summary of the sequence points is 
given in annex C.) 


13) The executions of unsequenced evaluations can interleave. Indeterminately 
sequenced evaluations cannot interleave, but can be executed in any order. 


ISO C++11 
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13 Sequenced before is an asymmetric, transitive, pair-wise relation between 
evaluations executed by a single thread (1.10), which induces a partial order among 
those evaluations. Given any two evaluations A and B, if Ais sequenced before B, then 
the execution of A shall precede the execution of B. If Ais not sequenced before B and 
B is not sequenced before A, then A and B are unsequenced. [ Note: The execution of 
unsequenced evaluations can overlap. 一 end note ] Evaluations A and B are 
indeterminately sequenced when either A is sequenced before B or B is sequenced 
before A, but it is unspecified which. [ Note: Indeterminately sequenced evaluations 
cannot overlap, but either could be executed first. —end note ] 


同时 ， 限 定 求 值 顺序 的 条 款 也 有 大 幅度 的 修改 : 


ISO C11(N1570) 


6.5 


1 An expression is a sequence of operators and operands that specifies computation of 
a value, or that designates an object or a function, or that generates side effects, or that 
performs a combination thereof. The value computations of the operands of an operator 
are sequenced before the value computation of the result of the operator. 


2 If a side effect on a scalar object is unsequenced relative to either a different side 
effect on the same scalar object or a value computation using the value of the same 
scalar object, the behavior is undefined. If there are multiple allowable orderings of the 
subexpressions of an expression, the behavior is undefined if such an unsequenced 
side effect occurs in any of the orderings.84) 
84) This paragraph renders undefined statement expressions such as 

i = ++i +1; 


a[itt+] = i; 


while allowing 


ISO C++11 


14 Every value computation and side effect associated with a full-expression is 
sequenced before every value computation and side effect associated with the next full- 
expression to be evaluated.8. 
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15 Except where noted, evaluations of operands of individual operators and of 
subexpressions of individual expressions are unsequenced. [ Note: In an expression 
that is evaluated more than once during the execution of a program, unsequenced and 
indeterminately sequenced evaluations of its subexpressions need not be performed 
consistently in different evaluations. —end note ] The value computations of the 
operands of an operator are sequenced before the value computation of the result of 
the operator. If a side effect on a scalar object is unsequenced relative to either 
anotherside effect on the same scalar object or a value computation using the value of 
the same scalar object, the behavior is undefined. [ Example: 


MO SEGUNDA ETT S) 

vordt (CET D nt 

i = v[it+]; // the behavior is undefined 

i eri m beconess9 

i = i++ + 1; // the behavior is undefined 

i = i + 1; // the value of i is incremented 

f(i = -1, i = -1); // the behavior is undefined 


} 


—end example ] 


When calling a function (whether or not the function is inline), every value computation 
and side effect associated with any argument expression, or with the postfix expression 
designating the called function, is sequenced before execution of every expression or 
statement in the body of the called function. [ Note: Value computations and side effects 
associated with different argument expressions are unsequenced. —end note ] Every 
evaluation in the calling function (including other function calls) that is not otherwise 
specifically sequenced before or after the execution of the body of the called function is 
indeterminately sequenced with respect to the execution of the called function.9 
Several contexts in C++ cause evaluation of a function call, even though no 
corresponding function call syntax appears in the translation unit. [ Example: Evaluation 
of a new expression invokes one or more allocation and constructor functions; see 
5.3.4. For another example, invocation of a conversion function (12.3.2) can arise in 
contexts in which no function call syntax appears. 一 end example ] The sequencing 
constraints on the execution of the called function (as described above) are features of 
the function calls as evaluated, whatever the syntax of the expression that calls the 
function might be. 


9) In other words, function executions do not interleave with each other. 


注意 到 ISO C++11 的 篇 幅 大 了 很 多 ， 是 因为 它 把 原先 不 少 ISO C++03 属于 第 5 章 的 内 
容 提前 到 第 1 章 来 计 了 。 可 见 这 里 的 普通 性 和 重要 性 。 


C11 & C++11 的 赋值 相关 表达 式 求 值 57 


FrankHB talk C/C++ 


这 里 的 修改 最 大 的 整体 差异 是 对 于 求 值 中 各 个 过 程 的 粒度 的 细 化 。 序 列 点 的 描述 把 值 的 
计算 和 副作用 之 间 的 顺序 捆绑 在 一 起 ， 而 先 序 关系 可 以 更 清晰 地 分 别 描述 这 两 类 需要 明确 顺 
序 的 过 程 之 间 的 逻辑 上 保持 的 顺序 关系 (至 于 对 于 整个 执行 环境 来 说 的 顺序 ， 由 于 要 考虑 并 
发 ， 由 happens before 二 元 关系 等 精确 描述 ， 这 里 从 略 ) 。 


4.1SO C11/ISO C++11 的 修正 


接 下 来 需要 了 解 的 就 是 各 个 具体 的 表达 式 的 求 值 顺序 ， 这 里 从 略 。 


重点 是 ISO C11/ISO C++11 对 ISO C99/ISO C++03 做 了 语义 上 的 修订 ， 在 明确 求 值 顺 
序 规则 的 依赖 的 基础 定义 〈 先 序 关 系 ) 的 同时 ， 放 宽 了 部 分 条 件 ， 导 致 原来 存在 未 定义 行为 
的 表达 式 现在 可 以 是 正确 的 。 首先 的 例子 是 WG21 Core Defect Report 637 ， 关 于 上 面 
ISO C++11 最 终 使 用 的 例子 。 


637. Sequencing rules and example disagree 


Section: 1.9 [intro.execution] Status: CD1 Submitter: 
Ofer Porat Date: 2 June 2007 


[Voted into the WP at the September, 2008 meeting.] 


In 1.9 [intro.execution] paragraph 16, the following expression is still listed as an 
example of undefined behavior: 


Ete pte be 


However, it appears that the new sequencing rules make this expression well-defined: 


The assignment side-effect is required to be sequenced after the value 
computations of both its LHS and RHS (5.17 [expr.ass] paragraph 1). 


The LHS (i) is an lvalue, so its value computation involves computing the address 
of i. 


In order to value-compute the RHS (++i + 1), it is necessary to first value-compute 
the lvalue expression ++i and then do an lvalue-to-rvalue conversion on the result. 
This guarantees that the incrementation side-effect is sequenced before the 
computation of the addition operation, which in turn is sequenced before the 
assignment side effect. In other words, it yields a well-defined order and final value 
for this expression. 


It should be noted that a similar expression 
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al, cem abe a 


is still not well-defined, since the incrementation side-effect remains unsequenced with 
respect to the assignment side-effect. 


It's unclear whether making the expression in the example well-defined was intentional 
or just a coincidental byproduct of the new sequencing rules. In either case either the 
example should be fixed, or the rules should be changed. 


Clark Nelson: In my opinion, the poster's argument is perfectly correct. The rules 
adopted reflect the CWG's desired outcome for issue 222. At the Portland meeting, | 
presented (and still sympathize with) Tom Plum's case that these rules go a little too far 
in nailing down required behavior; this is a consequence of that. 


One way or another, a change needs to be made, and | think we should seriously 
consider weakening the resolution of issue 222 to keep this example as having 
undefined behavior. This could be done fairly simply by having the sequencing 
requirements for an assignment expression depend on whether it appears in an lvalue 
context. 


James Widman: How's this for a possible re-wording? 


In all cases, the side effect of the assignment expression is sequenced after the 
value computations of the right and left operands. Furthermore, if the assignment 
expression appears in a context where an lvalue is required, the side effect of the 
assignment expression is sequenced before its value computation. 


Notes from the February, 2008 meeting: 


There was no real support in the CWG for weakening the resolution of issue 222 and 
returning the example to having undefined behavior. No one knew of an implementation 
that doesn't already do the (newly) right thing for such an example, so there was little 
motivation to go out of our way to increase the domain of undefined behavior. So the 
proposed resolution is to change the example to one that definitely does have 
undependable behavior in existing practice, and undefined behavior under the new 
rules. 


Also, the new formulation of the sequencing rules approved in Oxford contained the 
wording that by and large resolved issue 222, so with the resolution of this issue, we 
can also close issue 222. 


Proposed resolution (March, 2008): 


Change the example in 1.9 [intro.execution] paragraph 16 as follows: 
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ae enV, [else tats // the behavior is undefined 

IS 7) alse, Stara? // i becomes 9 

i = 【去 掉 ++i】 i++ + 1; // the behavior is undefined 
al Ex Beas abe // the value of i is incremented 


这 里 很 明显 地 ， 认 为 i = ++i + 1 不 再 存在 求 值 顺序 不 确定 的 未 定义 行为 。 原 因 是 ed 
依赖 的 += 的 求 值 顺序 有 修改 。 


这 个 修改 的 理由 同样 由 Core Defect Report 提出 : 
222. Sequence points and lvalue-returning operators 


Section: 5 [expr] Status: CD1 Submitter: Andrew Koenig 
Date: 20 Dec 1999 


[Voted into the WP at the September, 2008 meeting. ] 


| believe that the committee has neglected to take into account one of the differences 
between C and C++ when defining sequence points. As an example, consider 


(acp rey 


where a, b,and c allhavetype int .| believe that this expression has undefined 
behavior, even though it is well-formed. It is not well-formed in C, because += returns 
an rvalue there. The reason for the undefined behavior is that it modifies the value of 'a' 
twice between sequence points. 


Expressions such as this one are sometimes genuinely useful. Of course, we could 
write this particular example as 


decr DP NC 


but what about 


void scale(double* p, int n, double x, double y) { 
weve (Calma aes Tora at esi areal) SE 
ALESSIO) mem 
y 


All of the potential rewrites involve multiply-evaluating p[i] or unobvious circumlocations 
like creating references to the array element. 
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One way to deal with this issue would be to include built-in operators in the rule that 
puts a sequence point between evaluating a function's arguments and evaluating the 
function itself. However, that might be overkill: | see no reason to require that in 


x[itt+] = y; 


the contents of ` i ' must be incremented before the assignment. 


A less stringent alternative might be to say that when a built-in operator yields an lvalue, 
the implementation shall not subsequently change the value of that object as a 
consequence of that operator. 


| find it hard to imagine an implementation that does not do this already. Am | wrong? Is 
there any implementation out there that does not ‘do the right thing' already for (a += b) 
*- c? 


5.17 [expr.ass] paragraph 1 says, 


The result of the assignment operation is the value stored in the left operand after 
the assignment has taken place; the result is an lvalue. 


What is the normative effect of the words "after the assignment has taken place"? | 
think that phrase ought to mean that in addition to whatever constraints the rules about 
sequence points might impose on the implementation, assignment operators on built-in 
types have the additional constraint that they must store the left-hand side's new value 
before returning a reference to that object as their result. 


One could argue that as the C++ standard currently stands, the effect of x = y = o; is 
undefined. The reason is that it both fetches and stores the value of y , and does not 
fetch the value of y in order to compute its new value. 


I'm suggesting that the phrase "after the assignment has taken place" should be read 
as constraining the implementation to set y to o before yielding the value of y as 
the result of the subexpression y =o. 


Note that this suggestion is different from asking that there be a sequence point after 
evaluation of an assignment. In particular, | am not suggesting that an order constraint 
be imposed on any side effects other than the assignment itself. 


Francis Glassborow: 
My understanding is that for a single variable: 


Multiple read accesses without a write are OK 
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A single read access followed by a single write (of a value dependant on the read, 
so that the read MUST happen first) is OK 


A write followed by an actual read is undefined behaviour 
Multiple writes have undefined behaviour 


It is the 3) that is often ignored because in practice the compiler hardly ever codes for 
the read because it already has that value but in complicated evaluations with a 
shortage of registers, that is not always the case. Without getting too close to the 
hardware, | think we both know that a read too close to a write can be problematical on 
some hardware. 


So, in x = y = 0; , the implementation must NOT fetch a value from y , instead it has 
to "know" what that value will be (easy because it has just computed that in order to 
know what it must, at some time, store in y ). From this | deduce that computing the 
lvalue (to know where to store) and the rvalue to know what is stored are two entirely 
independent actions that can occur in any order commensurate with the overall 
requirements that both operands for an operator be evaluated before the operator is. 


Erwin Unruh: 


C distinguishes between the resulting value of an assignment and putting the value in 
store. So in C a compiler might implement the statement x=y=0; either as x=0;y=0; or 
as y=0;x=0; In C the statement (x += 5) += 7; is not allowed because the first += 
yields an rvalue which is not allowed as left operand to += . So in C an assignment is 
not a sequence of write/read because the result is not really "read". 


In C++ we decided to make the result of assignment an lvalue. In this case we do not 
have the option to specify the "value" of the result. That is just the variable itself (or its 
address in a different view). So in C++, strictly speaking, the statement x=y=0; must 
be implemented as y=0;x=y; which makes a big difference if y is declared volatile. 


Furthermore, | think undefined behaviour should not be the result of a single mentioning 
of a variable within an expression. So the statement (x +=5) += 7; should NOT have 
undefined behaviour. 


In my view the semantics could be: 


if the result of an assignment is used as an rvalue, its value is that of the variable 
after assignment. The actual store takes place before the next sequence point, but may 
be before the value is used. This is consistent with C usage. 
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if the result of an assignment is used as an lvalue to store another value, then the 
new value will be stored in the variable before the next sequence point. It is unspecified 
whether the first assigned value is stored intermediately. 


if the result of an assignment is used as an lvalue to take an address, that address 
is given (it doesn't change). The actual store of the new value takes place before the 
next sequence point. 


Jerry Schwarz: 


My recollection is different from Erwin's. | am confident that the intention when we 
decided to make assignments lvalues was not to change the semantics of evaluation of 
assignments. The semantics was supposed to remain the same as C's. 


Ervin seems to assume that because assignments are lvalues, an assignment's value 
must be determined by a read of the location. But that was definitely not our intention. 
As he notes this has a significant impact on the semantics of assignment to a volatile 
variable. If Erwin's interpretation were correct we would have no way to write a volatile 
variable without also reading it. 


Lawrence Crowl: 


For xzy-e , lvalue semantics implies an lvalue to rvalue conversion on the result of 
y=0, which in turn implies a read. If y is volatile, lvalue semantics implies both a read 
and a write on y. 


The standard apparently doesn't state whether there is a value dependence of the 
lvalue result on the completion of the assignment. Such a statement in the standard 
would solve the non-volatile C compatibility issue, and would be consistent with a user- 
implemented operator= . 


Another possible approach is to state that primitive assignment operators have two 
results, an lvalue and a corresponding "after-store" rvalue. The rvalue result would be 
used when an rvalue is required, while the lvalue result would be used when an lvalue 
is required. However, this semantics is unsupportable for user-defined assignment 
operators, or at least inconsistent with all implementations that | know of. | would not 
enjoy trying to write such two-faced semantics. 


Erwin Unruh: 


The intent was for assignments to behave the same as in C. Unfortunately the change 
of the result to lvalue did not keep that. An "Ivalue of type int" has no" int " value! So 
there is a difference between intent and the standard's wording. 


So we have one of several choices: 
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live with the incompatibility (and the problems it has for volatile variables) 


make the result of assignment an rvalue (only builtin-assignment, maybe only for 
builtin types), which makes some presently valid programs invalid 


introduce "two-face semantics" for builtin assignments, and clarify the sequence 
problematics 


make a special rule for assignment to a volatile lvalue of builtin type 
| think the last one has the least impact on existing programs, but it is an ugly solution. 
Andrew Koenig: 


Whatever we may have intended, | do not think that there is any clean way of making 


volatile int v; 
aie abe 


have the same semantics in C++ as it does in C. Like it or not, the subexpression v = 
42 has the type “reference to volatile int," so if this statement has any meaning at all, 
the meaning must be to store 42 in v and then fetch the value of v to assign it to i. 


Indeed, if v is volatile, | cannot imagine a conscientious programmer writing a statement 
such as this one. Instead, | would expect to see 


v =42;i= v; 
if the intent is to store 42 in v and then fetch the (possibly changed) value of v , or 


v = 42; 
um 12» 
if the intentis to store 42 in both v and i. 


What | do want is to ensure that expressions such as `òi = v = 42 " have well-defined 
semantics, as well as expressions such as (i = v) = 42 or, more realistically, (i += 


V) += 42 . 
| wonder if the following resolution is sufficient: 
Append to 5.17 [expr.ass] paragraph 1: 


There is a sequence point between assigning the new value to the left operand 
and yielding the result of the assignment expression. 
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| believe that this proposal achieves my desired effect of not constraining when j is 
incremented in x[j++] = y, because | don't think there is a constraint on the relative order 
of incrementing j and executing the assignment. However, | do think it allows 
expressions such as (i += v) += 42, although with different semantics from C if v is 
volatile. 


Notes on 10/01 meeting: 
There was agreement that adding a sequence point is probably the right solution. 
Notes from the 4/02 meeting: 


The working group reaffirmed the sequence-point solution, but we will look for any 
counter-examples where efficiency would be harmed. 


For drafting, we note that ++x is defined in 5.3.2 [expr.pre.incr] as equivalent to x«-1 
and is therefore affected by this change. x++ is not affected. Also, we should update 
any list of all sequence points. 


Notes from October 2004 meeting: 


Discussion centered around whether a sequence point “between assigning the new 
value to the left operand and yielding the result of the expression” would require 
completion of all side effects of the operand expressions before the value of the 
assignment expression was used in another expression. The consensus opinion was 
that it would, that this is the definition of a sequence point. Jason Merrill pointed out that 
adding a sequence point after the assignment is essentially the same as rewriting 


bt=a 


as 


bat say) 


Clark Nelson expressed a desire for something like a “weak” sequence point that would 
force the assignment to occur but that would leave the side effects of the operands 
unconstrained. In support of this position, he cited the following expression: 


CREE 
With the proposed addition of a full sequence point after the assignment to i, the net 


effect is no change to j. However, both g++ and MSVC++ behave differently: if the 
previous value of j is 5, the value of the expression is 5 but j gets the value 6. 
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Clark Nelson will investigate alternative approaches and report back to the working 
group. 


Proposed resolution (March, 2008): 
See issue 637. 


最 大 的 问题 出 在 赋值 上 。 


5. 赋 值 中 的 求 值 顺序 


对 于 赋值 的 修订 的 要 义 可 以 直接 通过 对 照 简单 赋值 的 标准 条 款 的 差异 看 出 来 。 复 合 赋值 
的 等 价 展开 形式 和 求 值 一 次 的 规则 并 没有 变化 。 


ISO C99 


6.5.16 


3 An assignment operator stores a value in the object designated by the left operand. 
An assignment expression has the value of the left operand after the assignment, but is 
not an lvalue. The type of an assignment expression is the type of the left operand 
unless the left operand has qualified type, in which case it is the unqualified version of 
the type of the left operand. The side effect of updating the stored value of the left 
operand shall occur between the previous and the next sequence point. 


4 The order of evaluation of the operands is unspecified. If an attempt is made to 
modify the result of an assignment operator or to access it after the next sequence 
point, the behavior is undefined. 


ISO C++03 


5.17 


1 There are several assignment operators, all of which group right-to-left. All require a 
modifiable lvalue as their left operand, and the type of an assignment expression is that 
of its left operand. The result of the assignment operation is the value stored in the left 
operand after the assignment has taken place; the result is an lvalue. 


ISO C11(N1570) 
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6.5.16 


3 An assignment operator stores a value in the object designated by the left operand. 
An assignment expression has the value of the left operand after the assignment, 111) 
but is not an lvalue. The type of an assignment expression is the type the left operand 
would have after lvalue conversion. The side effect of updating the stored value of the 
left operand is sequenced after the value computations of the left and right operands. 
The evaluations of the operands are unsequenced. 


111) 4 ik. 


ISO C++11 


5.17 


1 The assignment operator ( = ) and the compound assignment operators all group 
right-to-left. All require a modifiable lvalue as their left operand and return an lvalue 
referring to the left operand. The result in all cases is a bit-field if the left operand is a 
bit-field. In all cases, the assignment is sequenced after the value computation of the 
right and left operands, and before the value computation of the assignment 
expression. With respect to an indeterminately-sequenced function call, the operation of 
a compound assignment is a single evaluation. [ Note: Therefore, a function call shall 
not intervene between the lvalue-to-rvalue conversion and the side effect associated 
with any single compound assignment operator. —end note ] 


概括 起 来 ， 明 显 的 变化 是 现在 可 以 确定 对 操作 数 的 值 的 计算 、 更 新 左 操作 数 和 整个 赋值 
表达 式 的 值 的 计算 依 序 进 行 。 当 操作 数 的 求 值 是 赋值 〈 以 及 语义 同 += 1 的 内 建 前 级 e 
时 ) ， 这 里 的 副作用 和 更 新 包含 它 的 赋值 表达 式 的 左 操作 数 这 个 副作用 之 间 的 顺序 就 被 确定 
了 一 一 这 是 之 前 没有 的 。 


因此 ， 对 于 内 建 非 volatile 类 型 ，i = ++i + 1 这 个 表达 式 不 再 具有 未 定义 行为 。 


这 个 修改 的 可 行 性 在 于 是 放宽 而 不 是 加 强 限制 ， 且 现 有 的 实现 基本 无 需 做 出 修正 就 可 以 
直接 符合 新 的 标准 要 求 。 


5. C 和 C++ ENS KEENER 


无 关上 面 的 修正 ， 有 一 个 根本 差异 都 没有 变化 : C 的 赋值 表达 式 不 是 左 值 ， C++ 的 赋值 
表达 式 是 左 值 。 


这 在 判断 涉及 volatile 左 值 的 赋值 时 应 该 尤为 注意 。 
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对 于 C 来 说 ， 赋 值得 到 一 个 值 而 不 是 volatile 修饰 的 左 值 ， 作 为 左 操作 数 时 不 涉及 必 
然 读 volatile 对 应 的 存储 : 


ISO C11(N1570) 


111) The implementation is permitted to read the object to determine the value but is 
not required to, even when the object has volatile-qualified type. 


这 里 若 需要 读 取 ， 只 能 理解 为 赋值 自身 的 副作用 。 


事实 上 因为 赋值 表达 式 不 是 左 值 ， 也 不 可 能 允许 (x = 1) = 2 这 样 的 表达 式 。 所 以 从 属 
是 确定 的 ， 不 存在 顺序 不 明确 的 问题 。 


但 对 于 C++ 来 说 ， 情 况 就 不 一 样 了 。 作 为 右 操作 数 的 volatile 左 值 需要 通过 lvalue-to- 
rvalue conversion 转换 为 右 值 ， 这 是 对 volatile 的 读 取 的 额外 副作用 。 左 操作 数 的 左 值 若 
需要 保持 左 值 则 不 需要 。 这 里 还 有 个 陷阱 : 若 赋值 表达 式 是 完全 表达 式 ， 那 么 整个 表达 
式 作为 左 值 是 否 应 该 转换 成 右 值 (对 volatile 类 型 来 说 导致 一 次 额外 副作用 ) ? 这 个 
问题 在 C++03 中 的 答案 是 右 值 ， 也 就 是 说 对 volatile 左 值 赋值 后 需要 无 条 件 从 被 赋值 中 左 
值 取 得 存储 的 值 来 作为 右 值 。 这 在 实现 中 可 以 被 轻易 优化 掉 ， 但 在 语言 规则 中 存在 一 定 问 
an, OO: 


void f() 
{ 


volatile int x; 
x; // Undefined behavior? 


若 坚 持 这 一 点 ， 上 面 的 代码 就 存在 未 定义 行为 ， 因 为 读 取 未 初始 化 的 对 象 一 一 即便 读 出 
来 的 值 实际 并 没有 被 用 到 。 这 看 起 来 不 太 合理 。 Core Defect Report 举 出 了 类 似 的 例子 
(虽然 没 涉及 未 定义 行为 ， 从 中 也 可 以 看 出 C 和 C++ 在 这 个 问题 上 的 差异 ) 
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1054. Lvalue-to-rvalue conversions in expression 
statements 


Section: 6.2 [stmt.expr] Status: FDIS Submitter: Hans 
Boehm Date: 2010-03-16 


[Voted into the WP at the March, 2011 meeting.] 
C and C++ differ in the treatment of an expression statement, in particular with regard 


to whether a volatile lvalue is fetched. For example, 


volatile int x; 
WOTG IP af 
xe // Fetches x in C, not in C++ 


J 


The reason C++ is different in this regard is principally due to the fact that an 
assignment expression is an lvalue in C++ but not in C. If the lvalue-to-rvalue 
conversion were applied to expression statements, a statement like 


would write to x and then immediately read it. 


It is not clear that the current approach to dealing with the difference in assignment 
expressions is the only or best approach; it might be possible to avoid the unwanted 
fetch on the result of an assignment statement without giving up the fetch for a variable 
appearing by itself in an expression statement. 


Proposed resolution (January, 2011): 
略 ， 见 下 文 。 
C++11 最 终 采纳 了 这 个 建议 ， 增 设 一 段 ， 明 确保 证 不 转换 : 


ISO C++11 
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10 In some contexts, an expression only appears for its side effects. Such an 
expression is called a discarded-value expression. The expression is evaluated and its 
value is discarded. The array-to-pointer (4.2) and functionto- pointer (4.3) standard 
conversions are not applied. The lvalue-to-rvalue conversion (4.1) is applied only if the 
expression is an lvalue of volatile-qualified type and it has one of the following forms: 


— id-expression (5.1.1), 

— subscripting (5.2.1), 

— class member access (5.2.5), 

— indirection (5.3.1), 

— pointer-to-member operation (5.5), 


— conditional expression (5.16) where both the second and the third operands are one 
of the above, or 


— comma expression (5.18) where the right operand is one of the above. 


这 个 概念 同时 也 用 于 简化 其 它 一 些 规则 的 描述 。 
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Created @ 2013-01-28, v2 rev 2013-01-29, markdown @ 2015-09-14. 


对 最 近 各 种 蛋 疼 的 所 谓 “ 全 局 “变量 "问题 的 解释 做 个 小 结 。 


1. 交 量 (variable) 的 一 般 含 义 


“变量 ”来源 于 代数 学 ， 是 数学 中 最 伟大 的 发 明之 一 。 变 量 是 表示 可 变数 学 对 象 的 符号 
(symbol) 。 它 具有 两 重 含 义 ， 一 是 指 在 某 个 上 下 文中 的 符号 本 身 ; 二 是 这 个 符号 表示 的 可 变 
的 值 (value) 。 


2. 程 序 设计 语言 中 的 变量 、 变 量 名 (variable name) 


和 作用 域 (scope) 


在 程序 设计 语言 中 也 有 类 似 的 概念 。 不 同 的 是 ， 一 般 需要 更 加 明确 地 指出 一 个 变量 有 效 
的 上 下 文 。 这 个 上 下 文通 常 是 代码 中 的 一 段 (连续 的 ) 区 域 (region) ， 称 为 作用 域 (scope) 。 
只 有 在 作用 域 中 使 用 的 变量 是 有 效 的 。 


由 于 作用 域 针 对 的 是 一 段 代 码 区 域 ， 所 以 对 于 变量 的 两 重 含义 的 约束 是 不 同 的 。 作 用 域 
实际 只 限定 变量 作为 符号 本 身 ， 也 就 是 字面 形式 ， 即 变量 名 (variable name) 。 在 语言 的 语法 
中 ， 通 常 标识 符 (identifier) 这 一 成 分 就 可 以 作为 变量 名 。 当 然 变 量 名 也 可 以 是 更 复杂 的 表达 
式 。 


H 


而 变量 的 另 一 种 含义 ， 即 变量 的 内 容 ， 各 种 语言 可 以 提供 不 同 的 抽象 ， 例 如 可 以 直接 指 
定 存 储 ， 也 可 以 约定 使 用 其 它 抽 象 的 语义 形式 如 何 体现 可 变 的 状态 。 

另外 ， 在 明确 了 名 称 的 概念 之 后 ， 作 用 域 也 不 只 限于 变量 ， 对 于 任何 其 它 具 有 名 称 的 抽 
象 也 适用 。 作 用 域 能 避免 相同 的 名 称 的 冲突 ， 也 就 是 说 允许 相同 的 名 称 在 不 同 的 上 下 文中 指 
称 (denotes) 不 同 的 内 容 。 


3. 限 定名 称 (qualified name) 


上 面 提 到 过 使 用 作用 域 的 一 个 原因 是 防止 相同 名 称 的 冲突 。 有 时 作用 域 限制 不 太 方便 ， 
因为 需要 在 整个 程序 范围 内 访问 的 名 称 都 得 放 在 全 局 作用 域 中 。 所 以 还 需要 其 它 的 机 制 。 


许多 语言 提供 了 全 局 名 称 的 额外 组 织 机 制 ， 一 个 比较 通用 的 手段 是 允许 对 标识 符 增 加 表 
示 作 用 域 子 集 的 前 级 构成 限定 名 称 。 限 定名 称 更 加 明确 ， 而 对 应 未 被 限定 的 名 称 则 可 以 适合 
更 多 作用 域 。 


这 种 机 制 可 以 有 不 同 的 表现 形式 ， 如 C++ 和 C# 的 命名 空间 (namespace) Ada 和 Java 
的 包 (pakage) 等 ( Java 首先 把 变量 放 在 类 中 ， 然 后 以 类 作为 包 的 成 员 ) o 


\ 工 = z HEH 
4.C 话 言 的 变量 


应 该 指出 ， K&R 提 到 了 变量 ， 而 ISO C 中 没有 正式 定义 这 个 概念 ， 甚 至 ISO C 正式 文 
本 中 用 到 的 variable 一 词 也 都 不 是 变量 的 意思 ， 而 是 如 variable length array 等 。 


这 里 的 变量 可 以 按 传 统 意义 理解 ， 即 包括 变量 名 在 内 ， 但 对 于 C 这 样 的 明确 支持 不 同 作 
用 域 的 语言 来 说 ， 在 整个 程序 范围 内 变量 的 同一 性 (identity) 就 成 了 问题 一 “变量 名 一 致 的 变 
量 就 是 同一 个 变量 "有 违 整 体 上 的 直觉 。 而 要 是 撤 开 造成 问题 的 变量 名 ， 即 专 指 变量 内 容 ， 在 
C 语言 中 使 用 表示 存储 的 对 象 (object) 就 能 很 好 地 解释 清楚 了 ， 没 必要 用 "变量 "这 个 词 来 增加 
理解 上 的 困难 。 不 知 是 不 是 这 个 原因 ，ISO C 才 没 定义 变量 的 概念 。 





也 就 是 说 ， 对 变量 的 概念 存在 两 种 理解 ， 不 见得 哪 种 就 是 对 的 ， 而 且 都 没有 必要 。 这 种 
二 义 性 已 经 使 得 一 些 基本 问题 的 讨论 变 得 没有 意义 ， 如 “变量 是 不 是 表达 式 ”。 由 于 讨论 语言 问 
题 时 “变量 "可 以 被 更 清晰 的 术语 取代 ， 因 此 ， 可 以 回避 这 个 模糊 的 说 法 。 


5.C++is SHR Œ 

C++ 中 的 变量 通过 对 象 或 不 是 作为 类 的 非 静 态 成 员 的 引用 的 声明 引入 。 变 量 名 指称 被 声 
明 的 引用 或 对 象 : 
ISO C++11 


3/6 A variable is introduced by the declaration of a reference other than a non-static 
data member or of an object. The variable’s name denotes the reference or object. 


由 于 引用 的 存在 ， 这 里 变量 的 概念 并 没有 被 对 象 等 直接 取代 。 


6. 全 局 (global) 
全 局 是 指 整个 程序 的 范围 。 例 如 ， 对 于 运行 时 来 说 ， 全 局 状态 是 程序 的 各 个 部 分 都 能 访 
问 的 状态 。 


全 局 变量 (global variable) 是 指 程序 代码 中 的 各 个 作用 域 都 能 访问 的 变量 。 但 是 ， 下 面 会 
看 到 ，C/C++ 代 码 无 法 真正 地 达到 这 点 。 
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与 全 局 对 立 的 是 局 部 (local) 。 与 全 局 变量 对 立 的 是 局 部 变量 (local variable). (Az, 
C/C++ 程 序 中 ， 局 部 变量 往往 指 块 作用 域 (block scope) 中 的 变量 ， 并 不 严格 对 立 。 因 此 下 文 
不 使 用 这 些 概念 。 


7.C 语 言 的 作用 域 和 名 称 空间 


CH ERE RA WAR (function scope) 、 文 件 作 用 域 (file scope). E RHR 
原型 作用 域 (function prototype scope) 这 些 作用 域 : 


ISO C11(N1570) 


6.2.1 Scopes of identifiers 


3 Alabel name is the only kind of identifier that has function scope. lt can be used (ina 
goto statement) anywhere in the function in which it appears, and is declared implicitly 
by its syntactic appearance (followed by a : and a statement). 


4 Every other identifier has scope determined by the placement of its declaration (in a 
declarator or type specifier). If the declarator or type specifier that declares the identifier 
appears outside of any block or list of parameters, the identifier has file scope, which 
terminates at the end of the translation unit. If the declarator or type specifier that 
declares the identifier appears inside a block or within the list of parameter declarations 
in a function definition, the identifier has block scope, which terminates at the end of the 
associated block. If the declarator or type specifier that declares the identifier appears 
within the list of parameter declarations in a function prototype (not part of a function 
definition), the identifier has function prototype scope, which terminates at the end of 
the function declarator. If an identifier designates two different entities in the same 
name space, the scopes might overlap. If so, the scope of one entity (the inner scope) 
will end strictly before the scope of the other entity (the outer scope). Within the inner 
scope, the identifier designates the entity declared in the inner scope; the entity 
declared in the outer scope is hidden (and not visible) within the inner scope. 


顺带 纠正 两 点 常见 误区 : 


al) 函 数 体内 中 声明 的 名 称 所 在 的 作用 域 是 块 作 用 域 ， 而 不 是 画 数 作 用 域 ， 后 者 是 标号 
(label) FAN 〈 这 条 也 适用 于 C++) 。 
e b) 没 有 所 谓 的 全 局 作用 域 ， 通 常 所 谓 的 全 局 充其量 只 是 在 文件 作用 域 而 已 。 


不 过 在 C 语 言 中 同一 作用 域 其 实 允 许 有 限 地 允许 不 同 实体 重 名 。 除 了 限定 名 称 外 ，C 语言 
还 有 一 种 消除 歧义 的 方式 一 一 名 称 空间 (name space) : 


ISO C11(N1570) 
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6.2.3 Name spaces of identifiers 


1 If more than one declaration of a particular identifier is visible at any point ina 
translation unit, the syntactic context disambiguates uses that refer to different entities. 
Thus, there are separate name spaces for various categories of identifiers, as follows: 


— label names (disambiguated by the syntax of the label declaration and use); 


— the tags of structures, unions, and enumerations (disambiguated by following any32) 
of the keywords struct, union, or enum); 


— the members of structures or unions; each structure or union has a separate name 
space for its members (disambiguated by the type of the expression used to access the 
member via the . or -> operator); 


— all other identifiers, called ordinary identifiers (declared in ordinary declarators or as 
enumeration constants). 


32) There is only one name space for tags even though three are possible. 


C 语 言 没有 限定 名 称 ， 所 有 的 名 称 都 是 标识 符 。1SO C 也 没有 直接 说 明 “ 名 称 ” 的 含义 ， 但 
这 里 应 该 是 清楚 的 。 (实际 上 ，C 语 言语 法 中 的 identifier 在 其 前 身 B 话 言 中 的 对 应 物 就 叫 


8.C++ 话 言 的 作用 域 : 


C++ 的 作用 域 比较 多 ， 以 下 以 标准 文本 的 标题 排列 : 
ISO C++11 


e 3.3.3 Block scope [basic.scope.local] 

e 3.3.4 Function prototype scope [basic.scope.proto] 
e 3.3.5 Function scope [basic.funscope] 

e 3.3.6 Namespace scope [basic.scope.namespace] 
e 3.3.7 Class scope [basic.scope.class] 

e 3.3.8 Enumeration scope [basic.scope.enum] 

e 3.3.9 Template parameter scope [basic.scope.temp] 


注意 到 块 作用 域 一 节 的 交叉 引用 (cross reference) 的 标签 (label) 中 说 的 是 “local"。 这 是 因 
为 C++98/03 中 用 词 比较 混乱 ， 有 时 候 作 block scope 有 时 候 作 local scope (局 部 作用 
域 ) ， 到 C++11 按 ISO C 统一 了 ， 但 交叉 引用 在 没有 整 节 作废 时 还 是 需要 保持 兼容 性 ， 所 以 


没 变 。 


C++ 的 名 称 是 指标 识 符 或 限定 标识 符 的 使 用 : 


ISO C++11 


3/4 Aname is a use of an identifier (2.11), operator-function-id (13.5), literal-operator-id 
(13.5.8), conversion-function-id (12.3.2), or template-id (14.2) that denotes an entity or 
label (6.6.4, 6.1). 


关于 “全 局 "”， 这 里 需要 提 一 点 : 
ISO C++11 


3.3.6/3 The outermost declarative region of a translation unit is also a namespace， 
called the global namespace. Aname declared in the global namespace has global 
namespace scope (also called global scope). The potential scope of such a name 
begins at its point of declaration (3.3.2) and ends at the end of the translation unit that 


is its declarative region. Names with global namespace scope are said to be global 
name. 


也 就 是 说 C++ 有 "全 局 (命名 空间 ) 作用 域 ”， 是 命名 空间 作用 域 的 特例 ， 其 中 名 称 为 全 
局 名 称 。 可 以 看 出 它 和 C 的 文件 作用 域 是 对 应 的 。 


(为 什么 C 没有 真正 的 “全 局 "而 C++ 可 以 有 了 呢 一 一 并 不 是 这 个 单独 决定 的 。) 


9.C/C++ 程 序 与 链接 (linkage) 


一 个 C/C++ 程序 由 一 个 或 多 个 翻译 单元 (translation unit) 组 成 。 翻 译 单元 作为 源 代码 可 以 
各 自 独立 地 被 翻译 为 目标 代码 然后 链接 (linking) 成 完整 的 程序 。 语 法 上 ， ( 预 处 理 后 的 、 正 确 
的 ) 翻译 单元 由 名 称 的 声明 (declaration) 构成 。 声 明 引 入 标识 符 / 名 称 并 确定 它们 的 指称 。 某 
个 翻译 单元 中 的 声明 仅 在 这 个 翻译 单元 内 有 效 。 合 法 的 程序 中 使 用 任意 名 称 之 前 都 需要 这 个 
名 称 在 所 在 翻译 单元 内 (而 不 是 “全 局 ”") 的 (用 户 提 供 的 ， 或 者 实现 预定 义 的 ) 声明 。 


翻译 单元 的 地 位 是 等 价 的 ; 不 存在 "全 局 "的 翻译 单元 。 因 此 ， 一 般 地 ，C/C++ 程序 不 存在 
源码 层次 上 的 “全 局 ”的 概念 :“ 任 意 名 称 "自然 也 包括 变量 名 ， 只 能 依赖 于 具体 翻译 单元 。 这 
样 ， 不 管 是 C 还 是 C++ ， 都 无 所 谓 真 正 意义 上 的 "全 局 变量 "。 (考虑 到 C90 允许 隐 式 声明 ， 
倒是 有 些 “ 全 局 "的 风格 ; 但 这 种 手法 不 被 当前 的 C/C++ 接受 。) 


但 语言 允许 在 不 同 翻译 单元 中 共享 程序 的 全 局 状态 一 可 以 直接 通过 共享 不 同 翻译 单元 
的 实体 的 指称 实现 。 只 要 指定 不 同 翻译 单元 中 文件 /全 局 作用 域 中 的 某 些 名 称 指称 相同 的 对 象 
就 可 以 达到 "全 局 变量 "的 目的 。 相 点 地 ， 也 存在 和 外 部 无 关 ， 只 是 指称 翻译 单元 内 部 存在 的 实 
体 名 称 。 这 样 的 属性 称 为 链接 (linkage) 。 注 意 链 接 是 针对 名 称 的 ， 而 不 是 对 象 等 具体 实体 。 





很 自然 地 ， 能 以 相同 名 称 共享 外 部 实体 的 名 称 具 有 外 部 链接 (external linkage) ， 只 在 翻 
译 单元 内 部 共享 指称 实体 的 具有 内 部 链接 (interal linkage) ， 不 共享 指称 的 无 链接 (no linkeage) 


o 


所 谓 外 部 变量 (external variable) 就 是 指 变量 名 具有 外 部 链接 的 变量 。 这 和 作用 域 没 有 直 
接 的 关系 。 但 由 于 对 象 声 明 默 认 具 有 的 链接 ， 容 易 造成 混淆 。 这 里 仅 举 两 例 ， 不 详细 展开 : 
a) extern 的 确切 含义 ; b) const 对 象 在 C 和 C++ 中 具有 不 同 的 链接 。 


这 样 ， 可 以 确定 ， 外 部 变量 和 "全 局 变量 "不 是 一 回 事 。 这 方面 的 误解 看 来 还 是 不 少 ， 不 知 
道 拜 谁 所 则 了 。 


10. 结 论 : C/C++ 中 “全 局 变量 ”的 确切 含义 


可 见 ， 无 论 是 “全 局 "还 是 “变量 "， 在 C 和 C++ 之 间 都 有 一 些 差 距 。 


所 谓 “ 全 局 ”， 无 论 在 C/C++ 中 ， 都 没有 传统 的 意义 。 C 能 实现 在 效果 上 和 "全 局 变量 ?类 
似 的 只 是 名 称 具 有 外 部 链接 的 对 象 ， 但 硬 说 “全 局 "就 名 不 副 实 了 。 C++ 多 了 全 局 命名 空间 这 
种 在 源码 层次 上 强制 的 约定 ， 但 要 真正 能 保证 实现 “全 局 "， 还 是 得 靠 链 接 。 


C 语言 中 讨论 “全 局 变量 "可 以 有 各 种 没 明确 的 意义 ， 所 以 这 个 混乱 的 概念 还 是 不 用 为 妙 。 
只 有 C++ 中 是 可 以 明确 的 : 指 全 局 命名 空间 作用 域 中 的 变量 。" 文 件 作用 域 对 象 " 才 是 C 语 言 中 
对 应 的 比较 明确 的 提 法 。 


C 的 这 种 混乱 的 根源 除了 ISO C 没有 明确 一 些 和 传统 认 知 有 微妙 差异 的 关键 概念 外 ， 主 
要 是 由 于 缺乏 对 通过 链接 共享 实体 指称 的 多 翻译 单元 的 语言 设计 的 理解 所 致 。 不 过 说 到 底 ， 
既然 是 坑 ， 没 能 力 填 上 就 绕 过 去 吧 。 


关于 异常 义理 的 一 些 话 题 
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摘要 


本 文 对 C++ 语 言 提供 的 异常 处 理 机 制 和 异常 安全 问题 进行 简要 的 介绍 ， 并 明确 关于 异常 机 
制 在 应 用 中 区 到 的 若干 问题 及 其 解决 方法 ， 最 后 讨论 异常 规范 以 及 C++11 对 此 的 改动 。 


天 键 字 


异常 处 理 ， 异 常安 全 ，RAIl， 异 常 中 立 ， 异 常规 范 。 


Abstract 


This article briefly talked about exception handling mechanism provided by C++ and 
exception safety, and clarifies some problems and solution dealing with error handling. It 
also concerns exception specification and its evolution in C++11. 


Keywords: C++, exception handling, exception safety, RAII, 
exception neutrality, exception specification 


|. 绪论 : je E n 


若 无 其 它 说 明 ， 本 文 讨论 的 异常 处 理 特 指 C++ 的 一 项 重要 的 特性 。 本 文 关 注 它 适合 的 应 用 
范围 ， 但 不 讨论 具体 语言 实现 细节 。 


关于 腊 常 处理 的 基本 语法 和 相关 语言 特性 的 使 用 细节 ， 参 见 参考 资料 和 其 
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异常 在 计算 机 系统 中 被 认为 是 非 正 常 状态 的 抽象 。 异 常 能 够 干预 程序 的 正常 控制 流 ， 它 
很 大 程度 地 影响 程序 在 某 种 预期 条 件 以 外 的 表现 [1]。 


一 般 地 说 ， 当 一 个 异常 被 处 理 (handled) 时 ， 程 序 控制 流 切 换 至 称 为 异常 处 理 器 (exception 
handler) 的 子 例 程 中 。 若 异常 是 可 继续 (continuable) 的 ， 程 序 可 以 利用 先前 保存 的 信息 切换 回 
正常 控制 流 。 


异常 处 理 被 实现 为 硬件 机 制 和 特定 的 软件 构造 。 前 者 的 例子 有 IEEE 浮 点 异常 [1]、x86 架 
构 的 双重 故障 (double fault) 异 常 [2] ; 后 者 如 Windows 结 构 化 异常 处 理 (SEH)[ 们 ， 以 及 在 多 种 语 
言 如 C++、Java、Ada 等 被 内 建 支持 [1][3]。 


对 于 软件 实现 的 异常 处 理 机 制 来 说 ， 术 语 " 异 常 " 典 型 地 被 作为 储存 异常 条 件 (exception 
condition) 的 数据 结构 。 异 常 的 传输 在 这 里 有 普通 的 相似 性 : 产生 (raise) 或 抛 出 (throw) 一 个 异 
常 中 断 正 常 控制 流 ， 直 至 被 捕获 (catch) 而 处 理 。 若 一 个 异常 能 在 程序 的 任意 部 分 产生 ， 那 么 
这 样 的 异常 是 异步 (asynchronous) 的 ， 否 则 是 同步 (synchronous) 的 。 


由 程序 设计 语言 提供 支持 的 异常 一 般 通 过 编译 器 生成 代码 和 运行 时 库 动态 的 检查 来 实 
现 。 编 译 器 需要 在 确定 在 特定 位 置 生成 代码 ， 这 里 异常 的 异步 性 是 受 限 的 。 因 此 ， 保 留 某 些 
异常 不 由 语言 的 实现 而 是 由 底层 的 操作 系统 或 硬件 提供 支持 是 合理 的 。 


这 样 ， 不 同 层 次 上 的 异常 处 理 机 制 处 理 不 同 的 异常 。 例 如 ， 在 安装 Windows 上 的 PC 运行 
( 带 有 运行 时 异常 支持 的 ) 标准 C++ 程序 ， 浮 点 数 异常 被 硬件 义理、 影响 环境 的 某 些 状态 后 可 
继续 执行 ; 整数 除 以 雳 或 内 存 访 问 越界 由 Windows 包 装 为 结构 化 异常 并 抛 出 ; 通过 new 操 作 符 
分 配 失败 时 默认 抛 出 std::bad_alloc 异 常 。 被 抛 出 的 异常 若 不 被 用 户 显 式 处 理 ， 默 认 情 况 下 导 
致 程序 最 终 非 正常 退出 。 
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一 些 实现 可 能 支持 扩展 ， 如 VC++ 支 持 非 标 准 关键 字 try、except 等 Windows SEH 特 性 。 
对 于 可 移植 的 C++ 程 序 ， 不 应 使 用 这 些 特性 。 


通行 的 做 法 是 ， 当 过 到 需要 抛 出 的 异常 条 件 时 ， 用 一 个 多 态 类 (polymorphic class) 类 型 的 
对 象 ( 是 一 种 临时 对 象 ， 称 为 异常 对 象 ) 来 储存 ， 然 后 通过 throw 抛 出 ， 到 最 终 需 要 人 处理 异 常 
处 使 用 和 try 块 对 应 的 catch 捕 获 。 一 般 为 了 方便 异常 对 象 的 生存 期 管理 ，catch 指 定 的 类 型 为 异 
常 对 象 的 引用 (const 在 此 会 被 忽略 ， 没 有 必要 ) 。 构 造 异 常 对 象 时 一 般 应 避免 产生 新 的 异 
常 。 


catch(...) 可 以 捕获 任意 类 型 的 异常 对 象 。 需 要 注意 的 是 ， 在 上 述 带 有 扩展 的 实现 中 ， 
catch(..….) 可 能 不 安全 地 捕获 到 非 C++ 异 常 [4]。 所 以 通常 避免 使 用 抛 出 任意 类 型 的 异常 以 及 
catch(.….)， 而 使 用 自己 的 异常 类 继承 体系 ， 以 保证 具有 可 移植 性 同时 能 确保 适当 情况 下 捕获 所 
异常 [4]。 


此 外 ，C++ 可 以 使 用 异常 规范 (exception specification) 来 约束 一 个 函数 (函数 模版 ) 是 否 
接受 异常 ， 或 接受 特定 类 型 的 异常 ， 这 在 本 文 最 后 讨论 。 


Aa oh 
VREZE 
异常 安全 是 指 在 抛 出 异常 后 保持 可 预期 的 状态 。 通 过 Abrahams 异 常安 全 保证 描述 异常 安 
全 性 [4-6] : 


基本 保证 一 人 允许 失败 操作 改变 程序 状态 ， 但 不 能 有 泄漏 并 且 和 失败 操作 所 影响 的 对 象 / 模 
块 必须 仍然 在 生存 期 内 并 可 用 ， 状 态 必须 是 可 靠 的 (consistent) (但 不 是 完全 可 预测 的 ) 。 








强 保证 一 一 包括 事务 式 的 提交 /撤销 语义 : 失败 操作 必须 保证 关于 该 操作 的 对 象 的 程序 状 
态 不 被 改变 。 
无 抛 出 保证 一 一 根本 不 会 发 生 失 败 操作 ， 该 操作 不 会 抛 出 异常 。 





异常 安全 的 一 般 原 则 : 


使 用 “资源 获取 初始 化 ("resource acquisition is initialization")(RAII) 来 管理 资源 的 分 配 
一 一 在 析 构 函数 中 释放 资源 异常 抛 出 时 析 构 ， 释 放 资 源 无 需 用 户 干预 ; 


“从 小 处 做 好 所 有 工作 ， 然 后 保证 只 使 用 无 异常 抛 出 的 操作 ”从 而 避免 改变 程序 内 部 状态 ， 
直到 能 保证 整个 操作 成 功 ; 


坚持 “一 个 类 (SR) ， 只 做 一 个 任务 ”。 


参照 标准 库 的 策略 保证 异常 安全 : 一 个 图 数 应 当 总 是 支持 最 严格 的 保证 ， 同 时 不 会 对 不 
需要 这 种 保证 的 用 户 造成 伤害 。 





注意 ， 一 些 关键 画 数 ， 如 析 构 函数 和 去 配 (deallocation) 函 数 ， 必 须 是 无 抛 出 保证 的 操 
作 ， 否 则 在 某 些 条件 (具体 来 说 ， 抛 出 异常 时 的 栈 回 退 ) 下 无 法 避免 未 定义 行为 ， 导 致 程序 
行为 无 法 预测 [3]。 


VE. Ax(failure)#l #32 (error) 


异常 表示 非 正常 ， 它 
复 的 情形 。 异 常 不 一 定 是 
取出 来 ) 。 


错误 (程序 设计 意义 上 的 ， 不 是 指 软 件 的 bug) 是 程序 员 需 要 关注 处 理 的 对 象 ， 包 括 失败 
和 违反 接口 约束 但 可 能 恢复 的 有 异常。 用 超 约 式 设计 (design by contract) 来 概括 ， 这 里 的 接口 约 
束 包含 三 个 方面 : 前 置 条 件 (precondition)、 不 变量 (invariant) 和 后 置 条 件 (postcondition)[11 
[7]. 


蕴含 了 失败 一 确定 在 不 能 完成 接口 约定 的 功能 且 无 法 在 程序 中 恢 
失败 ， 而 失败 是 异常 (虽然 有 时 候 为 了 强调 非 失败 的 异常 而 单独 提 





并 误 不 应 该 经 常 发 生 。 经 常 发 生 的 状况 应 该 被 预期 ， 而 不 是 作为 错误 处 理 (error handling) 
的 对 象 [7]。 


对 于 某 些 可 恢复 的 异常 ，C++ 标 准 库 提供 了 一 些 错 误 恢 复 例 程 ， 如 对 于 默认 new 失 败 时 [7] 
首先 会 调用 new handler， 无 法 恢复 时 才 抛 出 异常 。 用 std::set_new_hanlder 等 标准 库 函 数 来 
设置 这 样 的 例 程 [3]。 


Vl. 错误 处 理 的 方式 
错误 处 理 是 C++ 异常 处 理 最 典型 的 应 用 领域 。 虽 然 话 言 并 不 阻止 没有 错误 的 流程 中 使 用 异 
常 ， 但 这 样 可 能 会 导致 代码 不 易 读 或 导致 调试 时 过 于 容易 中 断 ， 往 往 被 视 为 波 用 。 


不 使 用 异常 处 理 的 典型 错误 处 理 手段 是 静态 存储 状态 和 传递 错误 码 (error code)。 这 两 种 
方案 都 有 其 局 限 性 。 


静态 存储 错误 状态 (可 能 存储 的 就 是 错误 码 ， 如 POSIX 的 errno、Win32 的 
GetLastError) 的 局 限 性 很 明显 ; 





需要 静态 地 分 配 空间 意味 着 要 么 允许 错误 状态 被 覆盖 (这 强迫 用 户 必须 在 可 能 发 生 
送 误 后 第 一 时 刻 检查 错误 状态 ) ， 要 么 浪费 空间 (不 管 可 能 产生 错误 的 函数 是 否 被 调用 到 都 
需要 ) ; 


在 多 线程 环境 下 需要 考虑 同步 及 额外 开销 ( 若 使 用 线程 局 部 存储 ， 则 对 实现 的 要 求 比较 
) 


几乎 是 无 法 重 入 (reenterable) 的 。 
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错误 码 通 过 图 数 参 数 或 返回 值 传 弟 ( 如 Win32 的 GetLastError) ， 每 一 次 手动 转发 只 能 跨 
一 层 画 数 ， 和 扫 出 、 捕 获 异常 相 比 ， 这 导致 一 些 明显 不 利 [7] : 


见 余 一 一 显 式 转 发 随 调 用 层次 增加 而 送 增 ; 





混淆 正常 流程 (happy path) 和 错误 处 理 流程 一 一 往往 需要 很 多 代码 判断 错误 码 ， 错 误 处 理 
代码 和 其 它 代 码 没 有 清晰 的 边界 ; 

非 健壮 性 
何 暴露 ; 


错误 码 处 理 实现 有 误 时 程序 携带 错误 状态 执行 ， 难 以 确定 实现 的 缺陷 会 如 





难以 确保 和 检查 正确 性 一 一 若 要 保证 正确 ， 每 一 处 都 需 检 查 所 有 可 能 的 错误 是 否 被 处 
理 ; 


合 一 一 若 修 改 错 误 码 ， 每 一 处 判断 都 需要 重新 检查 是 否 需 要 修改 ; 


无 法 用 于 泛 型 代码 一 一 错误 码 不 具备 对 类 型 编码 的 能 力 ， 以 至 于 无 法 区 分 不 同 实例 类 型 
中 相同 代码 表示 的 不 同 错误 [7] ; 





无 法 简洁 地 跨 不 同调 用 层次 统一 处 理 错误 。 
特别 地 ， 使 用 返回 值 传 递 错误 码 有 如 下 无 法 克服 的 复杂 和 困难 : 


必须 预 留 返 回 值 给 错误 一 可 能 占用 原本 语义 上 合理 的 返回 值 ; 





只 能 保存 极其 有 限 的 状态 一 一 返回 值 只 有 一 个 ; 
使 谋 套 调用 更 复杂 一 一 多 余 的 参数 需要 额外 的 显 式 声明 ; 
需要 小 心 区 分 不 同 返 回 值 的 含义 ; 


在 没有 可 用 的 返回 值 时 一 一 构造 图 数 、 重 载 、 转 换 图 数 中 根本 无 法 使 用 。 





异常 相对 于 错误 码 还 有 其 它 优势 : 携带 足够 的 信息 ， 按 异常 类 的 继承 体系 汇总 不 同 错误 
统一 处 理 ， 类 型 安全 (不 会 被 莫名 其 妙 地 转换 ) 、 容 易 被 特定 的 工具 检查 等 [7]。 

有 观点 认为 使 用 C++ 异 常 有 显著 的 性 能 负担 ， 因 此 应 该 尽量 使 用 错误 码 处 理 错 误 。 这 是 不 
正确 的 。 现 代 编 译 器 可 以 做 到 不 抛 出 异常 时 没有 时 间 开 销 ; 相 比 之 下 空间 开销 通常 不 成 问题 
[7]。 但 是 ， 应 当 避 人 免 过 于 频繁 地 抛 出 和 捕获 异常 。 


因此 如 有 可 能 ， 应 该 尽量 选择 异常 作为 错误 处 理 机 制 ， 除 了 以 下 情况 : 





错误 处 理 和 产生 错误 的 地 点 非常 接近 时 ; 


通常 是 不 恰当 地 使 用 (例如 把 频繁 出 现 的 状况 作为 错误 ) 导致 的 。 


优势 无 法 发 挥 


造成 性 能 问题 





Vl 使 用 异常 进行 错误 处 理 的 策略 


这 里 需要 解决 的 问题 是 : 什么 时 候 抛 出 /捕获 /不 抛 出 也 不 捕获 (使 异常 隐 式 地 向 上 层 调 用 
者 传递 ， 即 异常 中 立 ) FB? 

首先 是 关于 未 确定 为 不 可 恢复 的 错误 时 的 恢复 策略 。 若 确定 可 恢复 时 ， 可 以 直接 原 地 恢 
复 (例如 配置 文件 不 存在 ， 就 创建 配置 文件 ) ; 否则 重新 抛 出 异常 ， 交 给 上 层 的 调用 者 处 
理 。 

然后 是 关于 不 可 恢复 的 错误 的 处 理 。 一 是 Sudden Death， 保 留 足够 的 信息 (如 日 志 ) 后 
退出 或 重启 模块 ; 二 是 保证 强 异 常安 全 的 事务 性 回 滚 [7]。 

回 滚 的 实现 主要 有 两 种 方式 : 事先 复制 可 能 被 回 滚 的 资源 的 副本 ， 若 回 滚 则 使 用 副本 代 
蔡 已 经 发 生 错 误 的 状态 ， 否 则 丢弃 副本 ; 把 回 滚 操作 分 解 为 若干 具有 无 异常 抛 出 保证 的 撤销 
操作 [7]。 后 者 比较 节约 资源 ， 但 受到 限制 比较 大 (需要 对 应 的 撤销 操作 都 存在 ) 。 

若 有 必要 ， 可 以 重新 抛 出 与 捕获 的 不 同 的 异常 (需要 不 同 的 异常 类 型 时 ) ， 或 考虑 捕获 
所 有 异常 〈 在 模块 边界 ， 不 允许 抛 出 异常 时 ) 。 


其 它 情况 下 无 需 特定 人 处理， 保持 异常 中 立 。 


SÉ SUSE HSE REM BR SS a, ERARA (SRE) 中 指定 。C++11 把 旧 
有 的 异常 规范 称 为 动态 异常 规范 ， 使 用 throw 引 导 。 违 反动 态 异 常规 范 会 导致 std::unexcepted 
的 调用 [3]。 


动态 异常 规范 有 以 下 缺点 [6][8-10] : 


静态 类 型 的 不 一 致 性 一 一 它 不 是 类 型 的 一 部 分 〈 不 能 出 现在 typedef 中 ) ， 却 限制 范 数 指 
RS FL S PES SN che; 





运行 时 强制 检查 一 一 不 对 程序 员 保 证 所 有 异常 已 被 处 理 ; 阻碍 编译 器 优化 代码 ， 影 响 性 


anr 
GG 


无 法 有 效 地 用 于 泛 型 代码 。 
在 实践 中 ， 只 有 两 种 异常 规范 被 认为 是 有 用 的 : 什么 也 不 抛 出 ， 或 者 能 抛 出 任何 异常 。 


C++11 提 供 了 新 关键 字 noexcept 引导 的 新 的 异常 规范 ， 并 废弃 (deprecate) 动 态 异 常规 范 
[3][10]， 以 改善 这 种 状况 。 noexcept 只 表示 是 否 能 保证 不 抛 出 有 异常， 而 不 限定 具体 的 异常 类 
型 。 违 反 noexcept 异常 规范 会 导致 std: :terminate 的 调用 。 


应 该 停 用 动态 异常 规范 。 适 当 使 用 noexcept 异常 规范 ， 以 使 代码 得 到 更 多 的 优化 机 会 。 


异常 是 一 项 C++ 中 的 重要 特性 。 使 用 异常 需要 注意 异常 安全 ， 可 以 通过 RAII 惯 用 法 实现 。 


错误 可 被 作为 一 类 异常 对 待 。 异 常 主要 被 应 用 于 错误 处 理 ， 并 且 一 般 优 于 其 它 方法 。 使 
用 异常 进行 错误 处 理 时 应 特别 注意 区 分 错误 是 否 可 恢复 。 


异常 规范 是 C++ 提 供 的 语言 特性 ， 用 于 检查 可 以 抛 出 的 异常 的 类 型 。 现 在 应 使 用 
noexcept 异 常规 范 而 不 是 过 时 的 动态 异常 规范 。 
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Created @ 2013-04-12, r1 rev 2013-04-12, markdown @ 2015-09-14. 
答 http://tieba.baidu.com/p/2262386913 。 
本 文 提 到 的 “原文 "同样 是 指 《 高 质量 C++/C 编 程 指 南 》。 原文 链接 已 经 修正 。 


(*)* 以 实际 经 验 出 发 "并 不 和 内 容 有 误 巴 盾 。 即 便 实际 经 验 是 符合 事实 的 ， 对 于 不 够 有 经 验 的 读 
者 还 是 有 相当 的 危害 。 


(*) 文 章 中 指出 的 错误 大 多 是 和 公认 的 常识 相悖 ， 即 便 标 准 能 够 提供 更 精确 的 解释 。 即 便 没 有 
标准 ， 错 误 也 不 应 该 出 现 。 
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“作者 的 本 意 是 想 说 明 实 际 操作 中 通常 的 组 织 代码 方式 。” 


1 虽然 比较 合理 的 可 能 的 原意 能 够 被 有 经 验 的 用 户 通过 下 文 猜 出 来 ， 但 是 这 个 表述 无 疑 是 错 
的 。 即 便 不 管 标准 定义 , “程序 "的 概念 在 C++ 中 是 清晰 的 。 声 称 一 个 程序 通常 组 织 为 "两 个 文 
件 "， 是 显然 的 误导 。 


1.2.1 


这 里 需要 补充 ， 实 际 是 否 应 该 使 用 这 种 风格 取决 于 具体 需要 。 


类 模版 因为 分 离 定 义 导 致 代 码 过 于 复杂 所 以 往往 不 适用 ， 但 如 果 能 保证 可 维护 性 也 不 是 不 能 
FA (All libstdc++ 拆 分 的 .tcc ) o 


而 除 了 模版 外 inline 函数 也 适用 。 


甚至 有 实用 的 不 用 inline 或 非 模 版 画 数 的 header-only = (40 Clmg 一 一 虽然 我 内 部 依赖 组 
得 不 怎么 样 ， 嘛 ， 题 外 话 了 ) o 


织 


3.1 


命名 原则 应 该 足够 清晰 。 


需要 指出 ， 只 强调 “直观 可 以 拼 读 ” 往 往 不 是 最 佳 实践 。 当 一 个 “直观 ”标识 符 长 度 过 长 时 就 不 能 
使 用 : 


(1) 实 现 不 支持 的 情况 。 在 ANSI C89 只 规定 较 少 的 标识 符 长 度 支 持 。 在 C++ 中 这 种 情况 的 影响 


BD, 


(2) 大 量 出 现 ， 过 长 的 标识 符 影响 阅读 时 。 一 般 拟 定 通用 的 缩写 ， 在 文档 (至少 注 释 ) 说 明 。 


3.2 


没 记 错 的 话 namespace 加 入 C++ 是 在 90 年 代 前 期 提出 的 ，2001 年 的 主流 编译 器 支持 应 该 
不 成 问题 ( VC6 也 支持 ) 。 这 不 是 一 个 很 容易 实现 错 而 需要 避免 使 用 的 特性 。 


考虑 到 即便 是 很 久 以 后 不 少 用 户 对 namespace 的 使 用 也 有 因为 各 种 原因 有 意 无 意 的 回避 反而 
导致 放弃 使 代码 更 清晰 潜力 (例如 box2d 和 旧版 FLTK ) ， 在 这 里 补充 是 有 必要 的 。 


4.3 


已 修正 。 


链接 是 BS 的 个 人 主页 。 失 效 似乎 是 最 近 几 个 月 的 事情 。 
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由 于 历史 原因 , “常量 ”的 用 法 比较 混乱 ， 具 体 含义 往往 需要 通过 上 下 文 推测 。 这 里 对 标题 的 解 
释 不 充分 显著 地 增强 了 误导 的 可 能 性 。 
这 里 是 非常 基础 的 内 容 ， 不 应 该 有 放任 明显 混淆 这 样 的 低级 错误 。 


“完全 "当然 不 可 能 。 是 否 “ 尽 量 "， 也 要 看 需求 。 例 如 有 时 需要 用 于 条 件 编 译 的 编译 时 确定 的 整 
数值 ，const 在 这 里 无 能 为 力 。 
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没 找 到 在 哪里 说 “帮助 新 手 区 分 指针 和 引用 ”*。 出 处 ? 
帮助 新 手 区 分 指针 和 引用 完全 不 必要 也 不 应 该 使 用 这 种 有 问题 的 说 法 。 


6.3.1 


(1) 的 确 需 要 补充 。 


(2) 原 文 没有 指出 就 是 assert o 从 契约 式 设 计 上 来 说 ， 用 assert 是 一 种 常见 的 实现 ， 但 使 
用 在 运行 时 抛 出 异常 等 其 它 手段 有 时 也 是 可 接受 的 手法 。 而 C++11 补充 的 static_assert 
(以 及 之 前 的 模拟 ) 也 算 ， 尽 管 适用 范围 受 限 。 ( 题 外 话 ， assert 就 没 法 constexpr T, 
这 点 大 概算 是 c++11 的 缺陷 。) 


这 点 确实 是 错误 。 已 补充 修正 。 


不 过 需要 另外 指出 , “临时 变量 "的 说 法 是 有 问题 的 。C++ 中 的 变量 是 指 声明 引入 的 对 象 或 引 
用 ， 临 时 变量 中 的 "变量 "很 多 时 候 无 法 作为 这 个 含义 。 从 下 文 来 看 ， 是 “临时 对 象 "之 误 。 


这 样 ， 就 有 一 个 硬 伤 。 表 达 式 中 使 用 模拟 类 类 型 的 对 象 初始 化 得 到 的 一 个 非 类 类 型 右 值 ， 不 
是 临时 对 象 。 


return int(x + y); // 注意 : 不 创建 临时 对 象 。 


至 于 后 面 “ 已 经 说 过 ”的 问题 ， 重 点 是 刻意 区 分 “ 值 " 的 意义 。 这 又 是 一 个 混乱 的 概念 ， 尽 管 严格 
意义 上 相对 单一 。 不 应 该 在 此 处 引入 增加 误导 可 能 。 (我 很 怀疑 原作 者 是 否 有 意识 到 这 
点 。) 
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和 本 文 无 关 ， 不 过 提 一 下 ， 根 据 wikiquote ， 这 句 不 是 Bil Gates 说 的 。 


7.1 


这 点 是 基础 概念 问题 ， 和 具体 实现 无 关 。 C 语言 也 需要 讨论 类 似 问 题 ， 虽然 说 法 不 同 。 


10.2 
从 OOD 的 角度 来 看 是 这 样 没有 错 ， 但 注意 文章 强调 的 是 编码 而 不 是 设计 上 的 质量 ， 说 的 是 
OOP 。 


从 OOD 到 OOP 的 映射 过 程 不 是 单一 简单 的 ， 毕 竟 使 用 的 不 是 建 模 语言 。 尤 其 是 对 C++ 来 
说 ， 不 少 语义 和 OOD 所 强调 的 抽象 不 相 吻 合 ， 也 不 能 方便 地 实现 。 

简化 OOD 到 OOP 的 过 程 或 许 正 是 Java 之 流体 现价 值 的 重点 之 一 。 然 而 ， 这 样 的 选择 是 以 
牺牲 可 能 实现 的 灵活 性 为 代价 的 。 而 这 种 有 灵活 性 正 是 OOP 用 户 欠 缺 与 需要 重视 之 处 。 


这 样 的 使 用 可 以 说 是 “一 种 技巧 ”， 但 类 似 地 也 有 其 它 一 些 特性 ， 如 class-scope using o 
C++ 为 什么 不 抛弃 这 些 看 起 来 不 符合 OO 方法 学 的 特性 ?我 认为 主要 并 不 是 兼容 性 的 问题 ， 
而 是 在 设计 上 鼓励 语言 的 用 户 有 权利 选择 自由 灵活 的 表达 方式 。 就 这 里 的 问题 而 言 ， 

private 继承 的 含义 是 “用 .……. ( 基 类 ) 实现 ” 即便 OOP 角度 上 不 是 典型 的 组 合 ， 同 样 可 以 
是 OOD 中 组 合 的 映射 结果 。 
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应 作者 要 求 ， 阅 《轻松 学 习 C 程 序 设 计 
(资源 通过 网 络 找到 ) ， 评 论 如 下 。 


揭 开 计算 机 与 程序 设计 的 奥秘 (修订 版 )》 


(此 处 找到 的 材料 的 节 标 号 可 能 有 错乱 ， 按 页 面 顺序 评论 。 因 此 也 不 保证 分 节 评论 。) 


1 计算 机 的 重要 性 和 基本 工作 原理 


作者 使 用 “理想 厨房 系统 "作为 计算 机 系统 的 比喻 。 有 以 下 一 些 问题 : 
难以 估计 对 于 初学 者 来 说 这 个 比喻 是 否 得 当 ， 有 助 于 真正 理解 。 


厨房 中 突 元 地 出 现 了 "地 址 传送 带 ” 控 制 传送 带 ”“IR”“PC”“R0” 等 和 喻 体 不 直接 相关 的 生 造 
抽象 。 这 些 抽 象 是 否 真 容易 理解 ?后 面 虽然 有 比较 详细 的 说 明 ， 但 细节 并 不 十 分 直观 且 篇 幅 
不 小 ， 可 能 对 读者 造成 负担 。 

语言 风格 问题 。 虽 然 总 体 比 较 清晰 ， 但 一 些 名 词 并 不 十 分 浅显 易 懂 (相反 容易 觉得 很 “ 专 
业 ” 一 一 某 种 意义 上 事实 的 确 如 此 ) 。 如 “ 取 指 周期 "一 一 具体 什么 意思 ， 并 没有 在 此 直接 解 
《理想 厨房 系统 与 计算 机 系统 术语 对 照 表 》 中 : 

内 存 ( 又 称 为 主 存 ， 包 含 很 多 大 小 相等 的 基本 存储 单元 ) 

















F Iko 
有 虽然 通常 说 的 内 存 往往 是 指 主 存 ， 但 实际 上 是 两 回 事 。 
在 论述 存储 的 体系 结构 时 ， 习 惯 上 "内 存 " 指 的 是 联机 存储 ， 和 脱 机 存储 即 " 外 存 " 对 立 。 


很 容易 找到 反例 ， 如 智能 手机 等 设备 常见 的 Flash ROM 属于 内 存 ， 但 它 不 是 主 存 。 这 些 
设备 的 主 存 使 用 RAM 。 

此 外 , “内 存 " 作 为 英文 memory 一 词 的 翻译 ， 也 可 以 指 一 般 的 存储 ， 没 有 特别 的 “内 "的 意 
思 。 只 不 过 通常 在 PC 等 设备 上 程序 必要 的 主要 存储 就 是 联机 RAM 主 存 抽象 得 到 的 ， 主 存 、 
内 存 和 RAM 三 个 概念 有 时 候 就 会 被 混用 。 (后 文 有 区 分 RAM 和 内 存 ， 但 并 没有 完全 论述 清 


楚 。) 


一 个 字 节 (Behr) 


一 一 一 个 字 节 即 8 位 也 只 是 通常 情况 ， 不 总 是 成 立 。 

下 文 

字 节 : 一 个 8 位 的 二 进 制 的 位 串 ， 就 构成 了 一 个 字 节 (Byte) 
一 一 在 这 个 意义 上 显然 是 错误 的 。 


正式 地 说 ， 在 体系 结构 中 的 字 节 和 八 个 位 组 成 的 八 元 组 / 八 位 组 (octet) 是 两 个 相对 独立 的 
概念 。 只 是 通常 一 个 字 节 是 8 位 容易 导致 一 些 错觉 见 o 


习惯 上 ， 作 为 存储 容量 的 计量 单位 ， 一 个 字 节 被 默认 为 8 位 组 成 ，ISO/IEC 80000-13 规 
ps 节 的 这 种 含义 。 但 是 ， 更 严格 的 场合 中 ， 如 通信 、 编 码 等 规范 化 时 ， 会 严格 区 分 两 
个 概念 。 


特别 地 ， C 语言 明确 允许 一 个 字 节 大 于 8 位 。 考 虑 到 C 语言 是 本 书 讨论 的 重点 ， 在 这 里 
混淆 这 两 个 概念 是 不 合适 的 。 


二 进 制 数 介绍 比较 详尽 ， 但 较 复 条， 初学 者 可 能 比较 难 接受 。 
操作 系统 又 被 称 为 系统 软件 





是 个 比较 笼统 的 概念 ， 但 显然 不 止 包括 操作 系统 。 








( 称 为 可 执行 程序 ， 程 序 文件 名 的 扩展 名 为 .exe 或 .com) 





然 错误 。 文 件 扩展 名 只 是 特定 环境 (如 操作 系统 ) 下 的 约定 。 文 件 是 否 表 示 可 执行 的 
程序 ， a 





本 章 内 容 比 较 多 ， 可 能 缺乏 一 些 典 型 的 简单 抽象 ， 如 冯 : 诺 依 曼 结构 只 是 一 笔 带 过 。 对 于 读者 
而 言 ， 一 口气 理解 大 量 术 语 和 比喻 (是否 一 定 有 助 于 理解 还 有 疑问 ) ， 很 可 能 比 记忆 经 典 的 
简单 抽象 更 困难 ， 且 更 难以 保证 理解 内 容 的 准确 性 。 


不 过 ，Lisp，Forth 这 些 函 数 式 语言 与 以 上 所 列 这 些 命令 型 或 面向 对 象 型 语言 有 较 大 的 区 
别 


—— Forth 不 是 典型 的 函数 式 语言 ， 相 反 ， 它 的 主要 范 型 是 指 合式 / 命 合式 (imperative) 的 。 


2 C 话 言 的 基本 概念 
2.1.2 C4 & EFE EN — Z8 34 PX B 23 —— — ES 


“一 级 构成 "是 无 稽 之 谈 。 


参照 本 书 末 附录 A 的 上 机 指导 ， 在 Windows 操 作 系 统 环境 下 ， 使 用 VC++6.0 编 译 并 运行 以 
下 C 语 言 程序 〈 虽 然 这 是 一 个 C++ 语言 的 编译 器 ， 但 该 编译 器 也 很 适用 于 对 C 语 言 的 源 程 
序 进 行 编译 和 调试 。 只 不 过 要 记 住 : C 源 程序 的 文件 名 一 定 要 以 ". c” 作为 扩展 名 。 注 意 : 
此 你 扩展 名 用 的 “ce” 是 小 写 ， 不 能 用 大 写 。 如 果 你 忘记 了 加 上 这 个 扩展 名 ， 该 编译 器 就 会 
将 你 的 程序 当 作 C++ 的 源 程 序 进行 编译 。 


在 扩展 名 上 又 一 次 的 低级 错误 。 注 意 Windows 原生 的 文件 系统 ( FAT 和 NTFS 等 ) 上 
虽然 可 记录 文件 名 中 字母 的 大 小 写 ， 但 是 把 仅 有 大 小 写 差 异 的 文件 名 视 为 相同 文件 的 文件 
名 。 所 以 VC++ 区 分 大 小 写 是 完全 没有 必要 的 。 

通常 类 UNIX 环境 的 文件 系统 严格 区 分 文件 名 中 字母 的 大 小 写 ， 使 用 的 编译 器 会 .C 作为 
C++ 程序 的 扩展 名 。 

一 个 C 语 言 源 程序 类 似 于 某 个 特殊 的 公司 ，main() 函 数 的 角色 类 似 于 公司 的 总 经 理 (该 公 

司 的 特殊 性 在 与 : 每 个 员工 所 负责 的 工作 都 是 互 不 相同 的 ) 


民 管 下 文 有 表 指 出 大 致 的 对 应 关系 ， 但 缺乏 直观 性 ， 略 牵强 。 





2.2 C 语 言 程序 的 二 级 构成 成 分 一 定义、 语句 、 注 释 和 预 义理 命 


A 
TJ 


标题 即 体现 抽象 县 次 混乱 。 事 实 上 这 四 个 概念 中 没有 任何 两 个 是 并 列 的 。 而 且 ， 从 严格 规定 
的 翻译 阶段 (phase of translation) 来 看 ， 注 释 和 预 处 理 指令 比 上 文 所 谓 的 "一 级 "成 分 范 数 更 
高 。 因 此 这 是 显然 错误 的 。 


其 中 的 Pl 是 一 个 符号 常量 





一 一 符号 常量 是 个 现时 不 常用 的 老 旧 说 法 ， 不 是 C 的 正式 概念 ， 且 容易 引起 混淆 。 (什么 


"tS EU) 
一 条 本 章 将 要 重点 讲解 的 赋值 语句 。 
— C 并 没有 单独 的 赋值 语句 。 


使 用 了 C99 引入 的 单行 注释 %/"， 但 和 本 书 其 它 部 分 强调 C89 和 C99 的 区 别 不 同 ， 这 里 没有 
提 到 C99 。 (虽然 VC++ 到 2013 年 都 没完 全 支持 C99 ， 不 过 这 个 倒是 有 扩展 支持 了 。 ) 


此 外 ， 关 于 标准 的 版 本 ， 正 确 说 法 是 ANSI C89 的 正文 被 接受 为 ISO C90, ， 而 1SO C99 
在 2000 年 被 接受 为 ANSI C 标准 。 之 后 标准 一 般 直 接 称 为 ISO C 。 本 书 所 谓 的 ANSI C99 的 
提 法 不 合适 。 


C 语 言 程序 的 二 级 主要 构成 成 分 ， 分 为 两 大 类 : 定义 序列 和 话 句 序列 。 在 范 数 体 中 ， 定 义 
序列 在 前 ， 语 句 序列 在 后 


一 ”显然 错误 ， 并 且 无 视 了 声明 的 重要 性 。 


高 级 语言 源 程序 中 的 定义 ， 是 用 来 定义 变量 和 定义 (用 户 自 定义 的 ) 类 型 和 





每 一 条 定义 都 要 以 分 号 结束 
显然 也 是 错 的 一 一 考虑 画 数 定义 。 
及 语言 源 程 序 中 的 语句 ， 其 实 就 是 用 来 告诉 编译 程序 : 我 们 想 要 计算 机 对 于 源 程 序 中 
变量 或 常量 形式 出 现 的 数据 ， 执 行 什 么 样 的 运算 (算术 运算 还 是 逻辑 运算 等 等 ) 和 操 
取 


取 数 、 存 数 、 输 入 、 输 出 ) ; 或 者 ， 我 们 想 要 计算 机 根据 哪个 表达 式 的 计算 结果 ， 去 
下 一 条 要 执行 的 语句 (这 句 话 ， 你 或 许 要 学 了 选择 结构 这 一 章 以 后 ， 才 能 真正 懂 
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这 一 段 再 次 暴露 了 抽象 的 混乱 。 实 际 上 ， 在 C 这 个 层次 上 ， 运 算 完全 可 以 为 类 为 操作 的 
一 种 ， 并 不 需要 区 分 存 取 和 算术 操作 一 一 而 这 些 操作 的 语义 萤 含 于 表达 式 〈 不 是 语句 ) 的 求 
值 中 。 


而 ISO C 使 用 的 方法 是 定义 一 个 抽象 机 ， 操 作 表 现 为 这 个 抽象 机 的 行为 。 存 取 可 能 是 表 
达 式 求 值 包含 的 副作用 (具体 地 ， 对 外 部 环境 的 |/O 操作 和 向 对 象 存储 值 一 定 是 副作用 ， 
volatile 左 值 的 读 取 也 是 副作用 ) 。 

oo De Um 编译 预 处 理 命令 和 声明 (只 是 对 在 别处 出 现 

的 定义 ， 起 着 辅助 说 明 作 用 。 请 参见 函数 一 章 ) 


错误 。 直 接 无 视 了 声明 作为 定义 ， 相 当 于 自 改 了 “声明 ”的 概念 。 





命令 型 (或 称 为 过 程 型 ) 高 级 语言 源 程序 的 本 质 





命令 型 和 过 程 型 不 是 一 回 事 。 关 于 这 点 在 《面向 对 象 和 所 谓 的 "面向 过 程 ?》 已 经 有 过 


与 大 多 数 其 他 高 级 语言 不 一 样 ， 在 编译 C 源 程序 之 前 ， 都 必须 事先 运行 一 个 编译 预 处 理 程 
序 


错误 ， 不 在 所 有 情况 下 适用 。 尽 管 完整 的 翻译 阶段 包含 预 处 理 ， 但 是 预 处 理 后 的 中 间 程 
序 可 不 需要 再 次 预 处 理 ， 且 仍然 可 以 是 C 源 程序 。 


对 源 程序 进行 一 些 (通常 是 少量 的 ) 辅助 性 的 插入 、 蔡 换 和 编辑 工作 。 





一 一 实际 情况 通常 很 不 “少量 "。 可 以 观察 GCC 等 常用 实现 的 预 处 理 后 的 程序 ， 上 比较 一 下 和 原 
始 代 码 的 大 小 。 





但 也 有 一 些 编译 预 处 理 命令 一 比如 条 件 编 译 命令 一 是 可 以 书写 在 函数 体内 部 的 


一 一 这 里 的 说 法 比较 含糊 。 预 处 理 本 身 不 禁止 指 合 和 男 数 的 顺序 ， 事 实 上 通常 预 处 理 器 的 实 
现 无 视图 数 。 尽 管 不 是 常规 做 法 ， #include 等 指 邻 写 在 函数 体内 部 也 可 行 。 





2.1.6 Ci$& 
A) 


源 程序 的 编写 、 编 译 、 链 接 和 调试 过 程 (参见 附录 


这 里 的 流程 和 VC++6 实际 所 做 的 不 一 样 。 例 如 ， nmake 的 调用 被 无 视 了 。 虽然 可 以 理 
解 这 样 描述 是 为 了 方便 新 手 阅读 ， 但 接 下 来 关于 编译 器 的 行为 也 是 很 含糊 的 。 


之 前 本 书 有 提 到 “编译 程序 (又 称 为 编译 器 ) 一 实际 上 这 个 说 法 是 不 严格 的 。 典 型 的 实现 
中 ， 供 用 户 通过 命令 行 接口 调用 有 若干 个 程序 〈 可 执行 程序 或 库 ) ， 它 们 可 以 总 称 为 编译 
器 。 其 中 一 个 程序 称 为 编译 器 驱动 程序 (compiler driver) ， 负 责 调用 其 它 程序 完成 预 处理 等 ， 
有 时 候 也 被 称 为 编译 器 。 

对 于 VC++ Kit, C/C++ 编译 器 的 驱动 程序 一 般 是 cl.exe 。 VC++ 中 cl 调用 了 附带 的 
动态 链接 库 完 成 翻译 的 不 同 阶段 ， 一 般 笼统 地 称 为 编译 一 一 而 链接 则 是 link.exe 完成 的 。 

对 于 GCC 来 说 ， 由 于 按 *NIX 传统 倾向 于 直接 调用 分 别 调用 各 个 静态 链接 的 可 执行 程序 
而 不 是 动态 库 ， 这 点 更 加 明显 : 可 以 很 容易 观察 到 占用 最 多 时 间 的 往往 是 实际 执行 代码 生成 
工作 的 程序 (例如 MinGW 和 Cygwin 下 的 可 执行 文件 名 是 cc1plus.exe ) 。 





不 走 论 路 ， 通 过 一 本 书 就 能 真正 掌握 编程 的 基本 思路 和 技巧 ， 就 是 最 短 最 快 的 捷径 


一 一 这 个 有 Peter Norvig 的 吐槽 大 概 就 够 了 。 


2.3 C 语 言 源 程 序 的 正文 部 分 


所 谓 的 "正文 部 分 "仍然 是 生 造 的 概念 。 


:五 SAS 
2.4 C 语 言 的 字符 集 
C 语 言 源 程序 的 全 部 正文 部 分 ， 都 只 能 够 使 用 如 下 所 列举 的 字符 来 构成 
一 一 其 它 地 方 说 的 好 好 的 C99 Ie? 


此 外 ， 标 题 党 。 这 里 所 说 的 实际 上 是 基本 源 字符 集 (basic source character set) 。 明 明 标 
题 是 “ C 语言 的 字符 集 *， 另 一 个 重要 的 基本 执行 字符 集 (basic execution character set) 却 一 点 
不 提 。 


全 角 和 半角 也 有 乱 掉 的 情况 CREER). 
2.5 标识 符 


在 高 级 程序 设计 语言 中 ， 我 们 通常 用 标识 符 来 命名 ， 我 们 想 要 用 计算 机 进行 加 工 的 其 数 
值 可 以 变化 的 数据 一 x € (一 ) 、 不 可 变化 的 一 部 分 数据 一 一 符号 常量 


一 又 来 了 个 “符号 常量 " 


混沌 说 法 。 


2.6 KRF 


“关键 字 " 有 的 教科 书 又 称 为 “保留 字 ” 


EJ = 


一 一 这 里 补充 一 下 ， 对 于 C 来 说 问题 不 大 ， 但 有 些 语言 后 者 范围 更 大 如 Java 的 goto 是 
保留 字 但 不 是 有 意义 的 关键 字 ; 再 如 C++ 的 and 等 alternative token ， 尽 管 不 是 正式 说 
法 ， 也 可 被 称 为 保留 字 。 


切记 : 不 要 将 关键 字 作为 普通 的 标识 符 来 定义 和 使 用 
加 严重 ) 。 


意思 容易 理解 ， 但 是 说 法 不 严谨 (考虑 到 后 面 提 到 了 “分 隔 符 ”之 类 的 词法 问题 ， 这 里 的 漏洞 更 


在 C 语言 中 ， 术 语 “ 标 识 符 (identifier) "出 现在 两 个 地 方 : 一 种 是 作为 预 处 理 记 号 
字 和 标识 符 等 。 


(preprocessing-token) ， 此 处 只 有 标识 符 没有 关键 字 ; 另 一 种 是 记号 (token) ， 其 中 包括 关键 


2.7 DAIT 


即 预 处 理 之 前 的 标识 符 被 预 处 理 后 分 化 为 关键 字 、 标 识 符 和 其 它 记 号 。 


标题 的 分 类 是 胡扯 。 无 论 是 seperator 还 是 delimiter 都 不 像 。 
隔 的 作用 





C 语 言 字 符 集 中 的 空格 ， 喜 号 ， 回 车 /换行 (ASCII 码 为 13) 这 三 个 字符 在 源 程序 中 起 着 分 


词法 和 语法 混 起 来 讲 先 不 论 ， 制 表 符 的 存在 感 呢 ? 


在 同类 项 之 间作 分 隔 : 要 用 有 逗号 ， 空 格 则 可 加 可 不 加 


一 一 什么 叫 " 同 类 项 "? 后 面 有 例子 ， 但 是 比较 笼统 一 一 似乎 只 是 说 了 变量 名 之 间 算 同类 项 ， 但 
又 无 法 让 读者 知道 是 不 是 有 其 它 适 用 的 外 延 。 








567，-425 ，0 等 ， 是 没有 小 数 分 量 的 数值 ” 
一 一 整 型 常量 ? 是 指 整 数 常量 (integer-constant) ? 负 号 是 什么 情况 (ARLE AA) ? 
B. x2 GXAA2 常量 
一 一 “ 实 型 "看 来 又 是 谭 x 流 的 说 法 。 


浮 点 数 十 六 进 制 表示 和 二 进 制 阶 码 果然 没 存在 感 。 


而 是 通过 采用 编译 预 处 理 命令 中 的 宏 定 义 的 符号 常量 (>) 来 处 理 此 事 。 即 用 标识 符 来 
命名 的 常量 


— 完全 胡扯 。 常 量 (constant) 的 语法 里 根本 就 没有 这 号 玩意 儿 。 





2.9 交 量 


比如 register int num; 编译 器 就 很 有 可 能 将 变量 num 的 存储 单元 安排 在 CPU 的 寄存 器 中 ) 





i 少 理会 register 关键 字 ， 因 为 往往 编译 器 比 用 户 更 清楚 到 底 是 不 是 存 进 
i 效 〈C 还 好 点 ，C++11 直接 deprecated 掉 了 ) 。 


给 要 使 用 的 变量 起 名 字 ， 正 式 的 术语 称 为 定义 变量 
一 一 胡扯 。“ extern int i; "显然 可 以 不 是 定义 ， 但 它 就 是 取 了 个 名 字 。 
对 于 简单 类 型 的 变量 


没 说 清 什么 是 “简单 类 型 "， 大 概 是 想 说 声明 符 可 以 放 在 要 声明 的 标识 符 一 侧 ， 不 用 顾及 男 
数 或 数组 的 声明 符 。 当 然 C 在 这 里 是 比较 坑 。 


变量 名 一 般 要 用 标识 符 来 命名 





一 一 难道 还 可 以 不 用 标识 符 命名 ? 


任何 一 个 int 型 的 整 型 变量 ， 在 VisualC++ 6.0 编 译 环境 下 都 被 编译 程序 分 配 了 4 个 字 节 的 
内 存 空间 作为 存储 单元 ; 在 Turbo C 2.0 编 译 环境 下 被 分 配 了 2 个 字 节 的 内 存 空间 作为 存储 
单元 。 
一 一 这 种 事 无 巨细 的 说 法 是 很 糊弄 的 风格 。 和 赁 什么 就 不 能 是 8 个 字 节 ?再 者 ， 如 果 整 个 优化 
$a T WE? 


在 程序 运行 中 ， 以 实数 值 形式 ( 即 有 小 数 分 量 ) 出 现 的 变化 着 的 数值 (比如 
34.1，-678.34 等 ) 





小 数 分 量 的 实数 ? 
单 精度 浮 点 型 变量 的 有 效 位 数 是 十 进 制 的 7 位 
一 一 并 非 刚 好 7 位 。 


任何 字符 型 的 变量 ， 在 内 存 空间 都 被 编译 程序 分 配 了 一 个 字 节 的 内 存 存 储 单元 ， 用 来 存 
放 该 变量 所 对 应 字符 的 ASCIl 码 (大 多 其 他 高 级 语言 也 都 是 这 样 ) 





上 面 提 到 过 了 ， C 有 基本 执行 字符 集 。 这 决定 了 运行 时 存储 的 整数 和 所 表示 的 字符 的 关 


联 。 


更 重要 的 一 点 是 ， 无 论 是 基本 源 字符 集 还 是 基本 执行 字符 集 ， 都 只 是 说 要 至 少 包 含 哪 些 
字符 ， 没 明确 具体 实现 为 什么 字符 集 什么 编码 。 


ASCII 只 是 最 常见 的 实现 。 一 个 不 兼容 的 ASCII 的 例子 是 EBCDIC 。 


[高 级 点 的 技术 交流 ] 什 么 叫 语 法 (syntax) 


Created @ 2015-07-01 08:50. 
先 声明 ， 我 不 是 的 这 专业 的 ; 然而 大 都 数 吹 融 材料 在 这 个 问题 上 的 犯 傻 过 于 普 青 ， 都 不 到 点 
上 ， 太 不 像样 了 ， 以 至 于 熟练 工 还 真能 一 本 正经 口 胡 .…… 


RAAHEN MART, Dei 〈 就 像 什 么 “变量 ”堆栈 "的 意思 一 样 ) 。 


1. 词 义 
中 文 维基 被 墙 所 以 照搬 英文 维基 解释 翻译 一 下 。 


词 条 syntax : 


In linguistics, syntax is the set of rules, principles, and processes that govern the 
structure of sentences in a given language. The term syntax is also used to refer to the 
study of such principles and processes. In linguistics, syntax is the set of rules, 
principles, and processes that govern the structure of sentences in a given language. 
The term syntax is also used to refer to the study of such principles and processes. The 
goal of many syntacticians is to discover the syntactic rules common to all languages. 


在 语言 学 中 ， 语 法 是 一 个 语言 中 控制 句子 结构 中 的 规则 、 原 理 和 过 程 。 术 话 syntax 也 指 对 这 
些 原理 和 过 程 的 研究 。 (译注 : syntax = 语法 学 。) 许多 语法 学 家 的 目标 是 发 现 适 用 于 所 有 
i mM. 


In mathematics, syntax refers to the rules governing the behavior of mathematical 


systems, such as formal languages used in logic. (See logical syntax.) 


在 数学 中 ， 语 法 指控 制 数学 系统 行为 的 规则 ， 例 如 逻辑 学 使 用 的 形式 语言 。 (BLURB 
法 。 ) 


Etymology 


From Ancient Greek: oUvtaéic "coordination" from oúv syn, "together," and T68Ic taxis, 


"an ordering". 


381 


古 希 腊 文 cüvra& “协调 ”， 由 词素 OUV(syn) “在 一 起 ”和 TAEIc táxis “一 种 秩序 ”组 成 。 


语法 学 的 历史 非常 悠久， 公元 前 4 世纪 十 印度 语法 学 家 波 你 尼 (Panini) 撰写 的 楚 语 语法 《 八 章 
书 》(AstadhyayT) 是 一 个 重要 的 代表 .…… 余 略 .……. 


事实 上 ， 抛 开 自 然 语 言 的 历史 ， 词 条 syntax (logic) 给 出 了 更 贴近 这 里 要 讨论 的 上 下 文 的 定 
L: 


In logic, syntax is anything having to do with formal languages or formal systems 
without regard to any interpretation or meaning given to them. Syntax is concerned with 
the rules used for constructing, or transforming the symbols and words of a language, 
as contrasted with the semantics of a language which is concerned with its meaning. 


在 逻辑 学 中 ， 语 法 是 任何 形式 语言 或 形式 系统 中 不 考虑 任何 解释 或 含义 的 部 分 。 语 法 和 用 于 
构造 或 转换 一 个 语言 中 的 符号 和 词 的 规则 有 关 ， 这 和 语言 的 语义 一 和 含义 相关 一 一 相反 。 


The symbols, formulas, systems, theorems, proofs, and interpretations expressed in 
formal languages are syntactic entities whose properties may be studied without regard 
to any meaning they may be given, and, in fact, need not be given any. 


在 形式 语言 中 表达 的 符号 、 公 式 、 系 统 、 定 理 、 证 明和 解释 是 语法 上 的 实体 ， 它 们 的 属性 可 
以 在 不 考虑 解释 和 含义 的 情况 下 被 研究 一 事实 上 也 不 需要 。 


Syntax is usually associated with the rules (or grammar) governing the composition of 
texts in a formal language that constitute the well-formed formulas of a formal system. 


语法 通常 和 控制 形式 语言 中 决定 合式 公式 的 文本 的 构造 的 规则 (或 文法 ) 关联 。 


In computer science, the term syntax refers to the rules governing the composition of 
meaningful texts in a formal language, such as a programming language, that is, those 
texts for which it makes sense to define the semantics or meaning, or otherwise provide 
an interpretation. 


在 计算 机 科学 中 ， 术 语 “ 语 法 ” 指 在 形式 语言 中 控制 构造 有 意义 的 文本 的 规则 ， 例 如 对 一 个 程序 
语言 ， 即 明确 对 定义 语义 或 含义 有 意义 或 提供 一 个 解释 的 文本 。 


关于 形式 语言 的 语法 学 ， 实 际 上 是 现代 数学 基础 最 重要 的 分 支 之 一 (数理 逻辑 ) 的 主要 组 成 
部 分 。 对 此 的 延伸 话题 限于 篇 幅 不 作 展 开 ， 有 闪 趣 的 读者 可 以 查找 词 条 内 的 链接 和 参考 文献 
进一步 了 解 术语 之 间 的 联系 。 


2. 文 法 (grammar) 


细心 的 读者 可 能 会 发 现 ， 实 际 上 经 常 被 称 为 语法 的 词语 并 不 是 指 syntax, ， 而 是 上 面 出 现 过 的 
另 一 个 容易 混淆 的 词 : grammar. 


仅 涉及 自然 语言 的 话题 中 ， grammar 常 被 翻译 成 "语法 "”， 而 syntax 则 是 “句法 ”( 上 面 的 
logical syntax 更 惯 于 被 翻译 成 “ 远 辑 句法 ”) ， 这 并 没有 造成 太 大 问题 。 不 过 在 涉及 更 广 的 范围 
下 ， 这 样 会 造成 一 些 误会 。 因 为 “ 句 "的 概念 的 微妙 差异 ， 导 致 “句法 "这 个 词 失去 基础 。 这 个 情 
况 下 ， 作 为 泛 指 ， 通 译 grammar 为 “文法 ”， syntax 为 “语法 ”。 


按 维基 给 的 定义 : 


In linguistics, grammar is the set of structural rules governing the composition of 
clauses, phrases, and words in any given natural language. The term refers also to the 
study of such rules, and this field includes morphology, syntax, and phonology, often 
complemented by phonetics, semantics, and pragmatics. 


在 语言 学 中 ， 文 法 是 指 任意 一 个 自然 语言 中 控制 组 合 分 句 、 词 组 和 词 结构 性 规则 的 集合 。 这 
个 术语 (译注 : 语法 学 ) 也 指 对 这 些 规则 的 研究 ， 这 个 领域 包括 (词语 ) 形态 学 、 语 法 学 和 
音韵 学 (译注 : 不 要 和 后 面 讲 的 phonetics 混淆 ) ， 经 常 也 涉及 语音 学 、 语 义学 和 话 用 学 。 


可 见 ， 至 少 在 自然 语言 中 ， 文 法 学 的 研究 范围 涵盖 了 语法 学 ; 作为 研究 对 象 ， 语 法 现象 是 文 
法 现象 的 真子 集 。 


对 于 形式 语言 来 说 ， 没 有 系统 的 音韵 学 或 语音 学 研究 的 必要 。 但 是 ， 其 它 重要 的 部 分 ， 尤 其 
是 语义 和 语 用 这 样 明确 不 属于 语法 学 研究 范围 的 内 容 ， 仍 然 是 重要 的 文法 现象 。 


因此 ， 随 意 混淆 "语法 "和 "文法 "是 有 问题 的 。 在 文法 的 范围 内 偷 换 " 语 法 "是 典型 的 缩小 外 延 的 
逻辑 廖 误 。 


3.;& 3L (semantics) 


上 面 的 讨论 实际 上 还 省 略 了 一 个 重要 的 问题 : 什么 是 “含义 "meaning) ， 和 "语义 "又 有 哪些 差 


R? 


这 里 一 并 澄清 关键 点 : 前 者 泛 指 所 要 表达 的 内 容 即 “目的 "， 而 后 者 是 指 对 含义 的 一 般 研 究 ， 尤 
其 侧重 和 被 使 用 的 语言 的 联系 。 


提 这 个 问题 是 因为 设计 和 使 用 人 工 语言 需要 注意 的 一 些 现 象 。 人 工 语言 的 语法 并 非 自 然 演 化 
而 是 人 为 设计 的 ， 仅 从 动机 来 讲 语法 背后 往往 存在 非常 具体 的 含义 。 但 是 ， 这 些 语言 的 语义 
和 设计 这 些 语言 的 语法 时 已 经 被 者 虑 并 集成 在 语法 规则 内 部 的 含义 并 没有 关系 。 


这 样 的 一 个 明显 好 义 是 ， 语 义 规则 可 以 完全 和 语法 规则 分 离 讨 论 (不 像 自 然 语言 反复 折腾 上 
千年 也 不 会 有 完全 的 标准 形式 ) ; 对 于 用 机 器 实现 语言 ， 语 法 和 语义 规则 的 检查 (前 者 又 称 
为 分 析 (parsing) ) 也 能 够 容易 被 分 离 ， 便 于 复 用 。 

因为 缺乏 设计 和 实现 语言 的 机 会 和 必要 训练 ， 这 个 和 自然 语言 不 同 的 特性 往往 造成 不 少 初学 
者 几乎 永远 都 没有 机 会 搞 清 楚 问 题 ， 而 对 解决 一 些 问题 (例如 学 习 新 的 程序 设计 语言 ) 造成 
一 些 阻碍 。 


实用 意义 的 。 形 式 文法 可 以 同时 描述 语法 规则 和 语义 规则 ， 但 相 比 

前 者 远 远 更 加 成 熟 。 具 有 文法 表达 的 形式 语义 通常 是 指称 语义 或 公 

言 设 计 者 来 说 要 求 过 高 ， 且 现 阶 段 因为 各 种 局 限 性 仍然 缺乏 实用 价 

并 不 会 给 出 形式 文法 指定 的 形式 语义 。 若 在 设计 时 不 对 语义 和 非 语 
言 更 加 混乱 和 困难 。 


这 里 的 设计 要 点 是 有 普通 
之 下 不 管 是 理论 还 是 实践 
理 语义 ， 这 对 于 大 多 数 语 
值 ; 所 以 大 多 数 语言 规范 
义 部 分 加 以 区 分 ， 则 实现 语 


与 形式 语义 的 困难 相反 ， 基 本 上 任何 现在 的 人 工 语言 都 会 给 出 形式 语法 一 一般 通过 BNF 范 
式 之 类 的 领域 特定 元 语言 来 描述 。 这 种 形式 描述 的 主要 优势 是 能 够 对 处 理 语 法 的 系统 (主要 
就 是 语法 分 析 器 ) 提供 自动 化 实现 ， 例 如 分 析 器 生成 器 (经 典 的 如 yace) 或 分 析 器 组 合 器 

(如 Parsec ) 。 因 为 可 以 节约 大 量 编 写 和 维护 分 析 器 的 工作 ， 这 些 自动 化 工具 为 调整 语言 的 
语法 设计 带 来 了 极 大 的 便利 。 (当然 ， 并 不 是 所 有 语言 都 方便 这 样 做， 下面 的 例子 会 提 

到 。) 





由 于 形式 语法 的 高 度 普 及 ， 有 时 候 提 到 syntax 就 指 得 是 形式 语法 ， 而 其 它 构 造 规 则 可 能 并 不 称 
为 语法 一 一 尽管 它们 部 分 或 全 部 地 是 传统 语法 学 研究 范围 的 内 容 。 





4. 词 法 (lexical syntax/lexical grammar) 


在 语法 中 ， 因 为 有 些 最 基本 的 和 字符 序列 直接 相关 的 部 分 内 容 的 含义 相对 固定 ， 而 不 需要 特 
别 指 定 不 同 的 规则 ， 习 惯 上 把 这 部 分 语法 单独 提出 称 为 词法 。 


在 实现 上 ， 词 法 分 析 和 其 它 更 一 般 的 语法 分 析 也 可 以 分 离 并 单独 配置 ; 同时 ， 也 便于 学 习 者 
理解 语言 的 语法 构造 。 实 践 证 明 这 是 自然 的 ， 因 此 这 种 惯例 普 表 存在。 


这 样 ， 也 可 以 提升 词法 到 和 其 它 一 般 语法 并 列 ， 直 接 使 用 文法 描述 。 


当然 也 不 是 所 有 语言 都 必要 单独 提出 词法 (除了 指定 允许 什么 字符 以 外 ) ， 上 比如 brainf*ck 或 者 
组 合子 逻辑 以 及 这 样 的 语法 上 异常 “简单 "的 语言 。 


5. 实 例 


f£ ISO C Clause 6 中 ， 语 言 的 形式 语法 在 标题 Syntax 下 澄清 ， 而 剩余 部 分 澄 清 非 形式 的 翻 
译 时 检查 的 约束 条 件 Constraints 和 一 般 的 语义 规则 Semantics (对 于 库 还 有 Runtime 
Constraints ) 。 


ISO C 区 分 Constraints 的 要 点 是 一 一 这 些 规则 和 Syntax 一 样 ， 必 须 在 翻译 时 被 检查 和 诊断 
(diagnostics)。 


WG14/N1570 


FrankHB talk C/C++ 


4 Conformance 


2 If a "shall" or "shall not" requirement that appears outside of a constraint or 
runtimeconstraint is violated, the behavior is undefined. Undefined behavior is 
otherwise indicated in this International Standard by the words "undefined behavior" or 
by the omission of any explicit definition of behavior. There is no difference in emphasis 
among these three; they all describe "behavior that is undefined". 


这 个 意义 下 ， Constraints 的 规则 和 语法 规则 具有 同等 效力 ， 尽 管 其 中 有 一 部 分 是 形式 语法 
说 不 清楚 的 (constant-expression) 。 而 剩 下 的 ， 违 反 了 就 当 未 定义 行为 了 。 


在 ISO C++ 中 ， 这 里 的 设计 更 加 明确 。 


WG21/N4527 


1.3.27 [defns.well.formed] 


well-formed program 


C++ program constructed according to the syntax rules, diagnosable semantic rules, 
and the One Definition Rule (3.2). 


1.4 Implementation compliance 
[intro.compliance] 


1 The set of diagnosable rules consists of all syntactic and semantic rules in this 
International Standard except for those rules containing an explicit notation that "no 
diagnostic is required" or which are described as resulting in *undefined behavior." 





同 逻 辑 学 的 习惯 ,，“ 合 式 " 被 作为 构造 性 正确 的 标准 ， 是 可 以 明确 只 不 过 仍然 不 要 求 
实现 必须 确定 。 有 别 于 未 定义 行为 ， 这 里 明确 区 分 了 诊断 要 求 ， 表示 了 更 精细 的 区 别 ， 


ODR 本 质 上 来 源 于 构造 性 语义 规则 ， ng acto 
性 ， 这 里 做 了 受 协 ， 直 接 和 语法 规则 、 可 诊断 语义 规则 并 列 了 。 


另外 值得 一 提 的 是 ， 虽 然 ISO C H ISO C++ 的 Annex A 都 直接 给 出 了 类 似 的 东西 ， 但 标题 
却 不 大 一 样 : C Æ Language syntax summary, C++ 是 Grammar summary 。 


实 也 不 难 理解 : C++ 的 语法 和 语义 虽然 在 原则 上 多 少 是 想 要 明确 分 离 的 ， 具 体 设计 上 却 自 
i 


C 的 语法 接近 上 下 文 无 关 语 法 (context-free grammar) (考虑 到 抽风 的 指针 语法 所 以 不 纯 
RE) ， 而 C++ 的 情况 明显 糟糕 得 多 。 


因为 语言 要 求 的 一 些 消 歧义 非 形式 文法 规则 ， 严 格 的、 单纯 的 C++ 语法 分 析 器 事实 上 并 不 存 
在 。 上 比如 说 声明 中 的 () 表示 一 个 函数 声明 符 还 是 初 值 符 的 一 部 分 ， 不 判断 现 有 实体 的 类 型 
是 不 知道 的 ， 而 类 型 需要 经 过 进一步 上 下 文 相 关 的 语义 分 析 才 能 确定 。 现 有 的 实现 基本 上 用 
的 是 有 效 然而 无 奈 的 笨 办 法 : 假定 每 种 文法 正确 都 斌 一通 ， 最 后 留 下 一 个 没 错 的 就 说 明 没 层 
义 了 。 


规则 的 边界 本 来 





换 句 话说 ， 要 说 C++ 的 "语法 " 烂 ， 正 是 因为 它 连 "语法 "是 什么 都 说 不 清楚 
就 是 模糊 的 。 


大 概 这 个 槽 点 ， ISO C++ 的 Annex A 也 就 老实 写 grammar 而 不 是 syntax 了 ， 尽 管 和 C 一 
样 ， 明 明 两 者 都 没有 给 出 形式 语义 .……… 


Java 在 这 里 就 好 得 多 ， 直 接 给 出 了 文法 定义 ， 并 明确 使 用 上 下 文 无 关 文 法 。 
(尽管 实际 上 仍然 只 有 形式 语法 ...... 是 Guy Steele 参与 起 草 的 关系 么 ? ) 
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2.2 The Lexical Grammar 9 

2.3 The Syntactic Grammar 10 

2.4 Grammar Notation 10 
当然 ， Java 的 语义 一 锅 乱 七 八 糟 的 这 里 不 展开 了 。 
CH 大 体 上 抄 的 Java ， 以 及 C++ 的 部 分 糟 烂 〈 又 是 关于 <> 的 疼 货 ) .…… 
ECMA-334 3 2005 

9.1 Programs 

9.2 Grammars 

9.2.1 Lexical grammar 

9.2.2 Syntactic grammar 

9.2.3 Grammar ambiguities 
ECMAScript 总 体 上 也 是 一 路 货 (En) FU JavaScript ...... ) 


ECMA-262 5.1 2011 


5 Notational Conventions 
5.1 Syntactic and Lexical Grammars 
5.1.1 Context-Free Grammars 
5.1.2 The Lexical and RegExp Grammars 
5.1.3 The Numeric String Grammar 
5.1.4 The Syntactic Grammar 
5.1.5 The JSON Grammar 
5.1.6 Grammar Notation 
C++/CLI 是 直接 照搬 ISO C++ 偷懒 了 。 


Haskell 2010 Report 则 只 是 提 了 下 notation ， 看 起 来 都 没 说 哈 grammar ...... 不 知道 对 混乱 
的 设计 有 多 少 自 知之 明 呢 。 


作为 补充 说 明 ， Scheme 的 RDRS 是 少数 给 出 了 文法 描述 的 形式 语义 的 语言 规范 。 正 文 符号 
ARE. 


顺便 ， 注 意 Scheme 的 语法 和 S-expression 的 语法 是 两 回 事 。 


抛 开 形式 语法 ， 没 有 一 个 实用 语言 的 语法 是 足够 简单 到 直接 能 一 看 就 全 记 住 的 .…… 


那些 提 哈 “只 是 语法 ”还 有 “语法 书 ” 的 ， 真 拿 得 出 一 本 出 来 么 。 或 者 蔡 我 贴 完 ISO C 的 Annex A 
科普 一 下 瞧 瞧 ? 


( 剩 下 的 懒得 写 了 自行 脑 补 。) 


特性 和 设计 


C & C++ 厂 义 类 型 系统 缺陷 


Created @ 2013-04-16, r2 rev 2013-04-16, markdown @ 2015-09-15. 


类 型 (type) 和 const / volatile 限定 符 (qualifier) 


类 型 是 程序 设计 语言 中 广泛 使 用 的 重要 特性 ， 被 用 于 抽象 数据 和 程序 行为 。 类 型 之 间 遵 
循 语言 的 若干 语义 规则 ， 这 些 规则 和 类 型 一 起 被 总 称 为 语言 的 类 型 系统 (type system) 。 


C 语 盲 具备 较 完整 的 静态 类 型 系统 ， 类 型 能 够 通过 组 合 产 生 新 的 类 型 (数组 类 型 、 辑 数 
类 型 、 指 针 类 型 等 ) 。 C 的 类 型 对 象 类 型 (包括 作为 不 完整 对 象 类 型 的 void ) MEZ 
型 。 C++ 在 这 个 层次 上 没有 太 大 改进 ， 增 加 了 引用 类 型 ， 而 把 void 类 型 排除 在 对 象 类 型 之 
外 。 


const / volatile 限定 符 通 过 限定 对 象 类 型 体现 主要 语义 (但 也 用 于 void ) ， 是 类 型 
的 组 成 部 分 。 


关键 字 const 4 20 世纪 80 年 代 引 入 C 语言 ， 表 示 禁 止 写 和 人 对象 的 只 读 语义 ， 以 便 实 
现 利 用 只 读 存 储 器 [C++ D&E]。 标 准 化 ANSI C 时 使 用 了 类 似 的 语法 和 语义 规则 增设 了 
volatile 限定 符 ， 语 义 为 读 取 被 限定 的 对 象 存储 值 和 写 入 值 时 也 产生 副作用 ， 禁 止 实现 缓存 
读 取 的 值 而 减少 读 操作 ， 能 有 效 提供 对 I/O 寄 存 器 等 的 映射 [C99 Rationale]. 


而 C++ 中 的 const 相对 有 只 读 以 外 更 激进 的 语义 : 对 于 特定 的 类 型 构建 (能 在 编译 时 
确定 的 ) 常量 表达 式 。 这 在 某 种 意义 上 提升 了 优化 的 可 能 性 ， 但 造成 了 语义 的 复杂 。 ( 题 外 
ìf, volatile 在 Java/C# 有 其 它 不 同 的 含义 。 ) 


左 值 性 (lvalueness) / 值 类 别 (value category) 


ISO C LAR ISO C++98 和 ISO C++03 的 左 值 性 (lvalueness) 是 一 种 二 值 系 统 : C 的 取 值 
分 为 左 值 (lvalue) 和 非 左 值 ; C++ 中 分 为 左 值 和 右 值 (rvalue) 。 任 何 表 达 式 的 左 值 性 取 值 都 是 二 
者 之 一 [ISO/IEC 14882:1998, ISO/IEC 14882:2003]。 


ISO C++11 的 值 类 别 (value category) 是 左 值 性 更 复杂 的 演进 ， 基 本 类 别 构成 三 值 系 统 : 
纯 右 值 ( prvalue ， 相 当 于 C++03 的 右 值 ) 、 消 亡 值 〈( xvalue ， 新 增 的 值 类 别 ) 和 左 值 
(lvalue) 。 其 中 纯 右 值 和 消亡 值 合 称 右 值 ， 消 亡 值 和 左 值 合 称 泛 左 值 (glvalue) 。 任 何 表 达 式 的 
值 类 别 取 值 都 是 三 种 基本 类 别 之 一 [ISO/IEC 14882:2011]。 该 演进 主要 是 因为 右 值 引用 的 引入 
而 显得 必要 ， 详 细 动 机 参见 [ISO/IEC JTC1/SC22/WG21 N3055]。 


左 值 性 来 源 于 B 语言 需要 对 表达 式 的 左 操作 数 的 做 出 语义 限定 的 需要 : RAZ (eft 
value) 才能 作为 “=”、“++” 和 “--” 的 左边 《...... 以 及 “&” 的 右边 ) 一 一 此 时 lvalue 显 式 地 作为 文法 
TR ; 类 似 地 ， 出 现在 “=” 右 边 的 元 素 相对 称 为 rvalue[User's reference to B]。 左 值 的 概念 后 
来 被 治 用 至 C 和 C++ 语言 。 


由 于 左 值 也 同时 被 作为 & 操作 符 的 操作 数 的 语义 限定 条 件 ， 实 际 上 表示 可 能 在 内 存 中 保 
持 的 对 象 一 一 存在 对 用 户 可 知 的 对 应 的 内 存 位 置 (memory location), lvalue 也 被 叫做 locator 
value ; 而 C 中 所 谓 的 右 值 (rvalue) 一 般 即 为 值 (value) 的 同义词 [ISO/IEC 9899] ( C++ 的 值 则 
可 以 是 实现 定义 的 其 它 概 念 ) 。 


注意 C 和 C++ 的 左 值 性 在 函数 类 型 的 表达 式 上 有 差异 : C 的 函数 指示 符 (function 
designator) 不 是 左 值 也 不 是 右 值 。 而 C++ 的 函数 名 是 左 值 。 


左 值 变换 (lvalue transformation) 


以 上 讨论 的 是 原始 的 左 值 性 / 值 类 别 。 在 C/C++ 中 ， 通 过 特定 的 、 仅 有 少数 求 值 GSK) 
上 下 文 例外 的 隐 式 转换 ， 转 换 的 结果 的 表达 式 的 左 值 性 / 值 类 别 可 以 改变 ， 同 时 类 型 也 可 以 改 

这 些 转换 在 C++ 中 为 便于 重 载 解析 (overloading resolution) 描述 而 被 统称 为 左 值 变 换 ， 
包括 三 种 标准 转换 (standard conversion) : 左 值 - 右 值 转换 (lvalue-to-rvalue conversion) 、 数 
组 -指针 转换 (array-to-pointer conversion) 和 函数 -指针 转换 (function-to-pointer conversion) , 
其 中 值 类 别 由 泛 左 值 转换 为 纯 右 值 ( 对 应 C++98/03 中 左 值 转换 为 右 值 ) ， 同 时 后 两 者 有 类 
型 变换 ， 分 别 为 数组 左 值 e->&e[0] MRAZA e—&e 。 


转换 被 排除 的 少量 上 下 文 是 作为 (GA C++11 的 说 法 ) 非 求 值 操作 数 (unevaluated 
operand) 时 、 操 作 数 需要 左 值 时 以 及 初始 化 左 值 引用 时 。 


在 C 中 也 存在 类 似 转 换 ， 排 除 的 上 下 文 也 类 似 (当然 没有 用 于 初始 化 引用 的 情形 ) ， 但 只 
有 第 一 种 被 明确 命名 为 左 值 转换 (lvalue conversion)[ISO/IEC 9899], 


左 值 性 / 值 类 别 虽然 不 是 C/C++ 的 名 义 上 的 类 型 ， 但 从 目的 (静态 分 析 区 分 操作 、 转 换 以 
及 检查 类 型 错误 ) 来 说 ， 符 合 静 态 类 型 系统 的 一 般 特 征 。 因 此 本 文 称 为 广义 类 型 一 致 处 理 。 


左 值 、 限 定 符 和 引用 类 型 : 多余 和 复杂 
一 个 主要 的 问题 是 左 值 性 和 const / volatile PREM 〈 作 为 类 型 的 组 成 部 分 ) 的 不 完全 
正 交 组 合 造成 的 元 余 。 


对 于 C 以 及 C++ 中 排除 类 类 型 (class type) 外 的 非 左 值 表 达 式 ， const / volatile 限定 
符 被 自动 丢弃 。 这 样 ， 存 在 5 种 等 价 类 : 


e 非 左 值 : 不 可 写 、 读 不 产生 副作用 ; 


。 左 值 : 可 写 、 读 不 产生 副作用 ; 

* const 左 值 : 不 可 写 、 读 不 产生 副作用 ; 

* volatile 左 值 : 可 写 、 读 产生 副作用 ; 

* const volatile 左 值 : 不 可 写 、 读 产生 副作用 。 


显然 ， 这 里 非 左 值 和 const 左 值 在 写 权 限 和 副作用 是 重复 的 ， 除 了 作为 & 和 若干 转换 
的 操作 数 。 


对 于 C 来 说 ， 这 样 的 区 分 尚且 是 有 意义 的 : & 能 返回 const 左 值 的 指针 来 间接 获得 所 
需 的 值 ， 代 价 是 需要 占用 存储 ; 而 非 左 值 则 只 能 立即 使 用 值 ， 但 不 需要 被 储存 。 


而 在 C++ 中 ， 这 样 的 设计 就 有 些 菲 夷 所 思 了 : 明明 存在 能 绑 定 右 值 的 const 左 值 引用 
来 获取 右 值 对 应 的 值 ， 为 什么 还 需要 const 左 值 ? 


对 于 CH, STR, BA (Ati) 引用 表示 的 左 值 ， 除 了 存储 以 及 参与 不 同 的 重 
R (但 显然 能 和 对 应 对 象 关 型 产生 歧义 ) 外 和 对 象 左 值 没有 区 别 ， 这 对 于 内 建 表 达 式 基本 没 
意义 ， 保 留 不 相同 的 规则 造成 不 一 致 性 。 


事实 上 ， C++ 中 ，〈 左 值 ) 引用 正在 取代 传统 非 引用 类 型 的 左 值 的 地 位 ， 早 在 1992 年 
标准 化 开始 时 的 第 一 篇 公开 论文 [X3J16/92-0053 WG21/N0130] 就 提议 这 点 ， 并 在 之 后 各 种 场 
合 改头换面 、 缺 乏 直 觉 规律 地 出 现 (如 模版 左 值 类 型 推导 、 decltype ) 。 但 内 建 操 作 符 表 
达 式 左 值 的 类 型 并 没有 修改 〈 比 如 内 建 赋值 和 前 置 返回 引用 ) ， 不 和 其 它 C++ 特性 一 致 而 和 
C 保持 一 致 。 这 点 很 容易 被 忽视 而 导致 一 些 误解 。 


可 修改 (modifiable) 左 值 的 意义 
f£ ISO C/C++ 中 ， 直 党 明确 的 可 写 权 限 并 没有 被 定义 ， 而 是 规定 了 对 左 值 的 可 修改 
(modifiable) 的 概念 ， 事 实 上 表示 可 写 左 值 的 子 集 。 


这 个 概念 的 一 个 重要 应 用 是 禁止 数组 左 值 作为 赋值 的 左 操作 数 : ISO C 中 数组 类 型 的 左 值 
就 明确 不 是 可 修改 的 。 但 事实 上 并 没有 明确 违反 语义 规则 时 究竟 有 没有 已 经 左 值 转换 (转换 
为 右 值 不 能 在 “= "左边 一 如 果 这 点 成 立 ， 可 修改 左 值 的 规则 在 这 里 是 元 余 了 ) 。 这 种 含糊 的 
为 类 导致 标准 在 起 草 措 辞 (wording) 上 的 一 些 问 题 ， 例 如 在 ISO C++ 中 遗漏 了 明确 的 数组 左 值 
的 可 修改 性 表述 (虽然 可 以 推测 合理 的 情形 是 和 ISO C 一 致 ) ， 可 能 是 潜在 的 缺陷 。 


另外 ， 对 于 位 域 (bit-field) 类 型 ， 可 能 是 因为 按 字 节 地 址 寻 址 的 困难 性 ， 尽 管 仍然 能 作为 
可 修改 的 左 值 ， 也 需要 额外 明确 。 可 修改 在 语义 上 无 法 帮助 减少 这 里 的 措辞 。 


为 什么 C/C++ 在 这 里 不 够 理想 : 解决 的 困难 


抛 开 现 有 的 语言 特性 ， 从 设计 新 语言 的 角度 看 ， 相 关 的 基本 需求 不 难 总 结 : 
作为 基本 抽象 ， 对 象 或 者 值 需要 可 读 ; 


AF ATG “2 MASS, BERRA, sor CHR) 副作用 带 来 的 表达 计算 的 
便利 是 Algol-like 语言 的 基本 需求 之 一 ; 


作为 能 够 容易 操作 硬件 的 语言 ， 需 要 类 似 使 用 volatile 的 机 制 提供 映射 硬件 存储 的 能 
力 。 


下 面 可 以 证 明 满 足以 上 需求 的 设计 可 以 比 现 有 的 更 简单 ， 而 不 必要 有 如 此 多 的 匈 余 和 模 
糊 (注意 ， 适 合 实现 或 者 通过 现 有 语言 演进 ， 是 另外 一 回 事 ) 。 


显然 ， 不 完全 正 交 的 广义 类 型 不 如 合并 为 有 以 下 分 类 的 一 个 类 型 系统 显得 更 清晰 : 值 : 
可 写 、 读 不 产生 副作用 ; 


* const 值 : 不 可 写 、 读 不 产生 副作用 ; 
* volatile 值 : 可 写 、 读 产生 副作用 ; 
e const volatile 值 : 不 可 写 、 读 产生 副作用 。 


这 种 方案 要 求 需要 对 所 有 值 一 视 同 仁 地 提供 & 等 现在 的 左 值 具 有 的 操作 ， 若 不 考虑 彻底 
放 奔 或 加 上 使 问题 更 复杂 的 其 它 限 制 的 话 。 (生存 期 需要 另外 一 些 规则 ， 但 相 比 之 下 不 是 太 
大 的 问题 。) 表面 上 看 ， 这 阻碍 了 值 “ 不 要 求 存储 ”的 优化 ; 但 是 除了 volatile 类 型 外 ， 关 于 
抽象 机 的 可 观察 行为 的 等 价 语义 可 以 很 容易 挽回 这 一 点 ， 至 少 对 于 C 来 说 最 终 只 有 一 点 关键 
的 阻碍 一 一 & 的 结果 是 什么 ? 


基于 现在 的 ISO C/C++ ， 至 少 理论 上 并 非 不 可 解决 : 内 建 & 的 结果 是 一 个 指针 类 型 的 非 
左 值 ， 一 个 重要 的 语义 限制 是 表示 “地 址 ”一 一 但 地 址 相关 的 可 能 的 可 观察 语义 (指针 算术 以 及 
值 的 标准 输出 ) 是 实现 定义 的 。 尽 管 改 变现 有 的 、 典 型 的 把 地 址 的 取 值 范围 映射 至 某 个 地 址 
空间 的 实现 附加 的 实现 复杂 性 会 是 非常 致命 的 。 


但 是 更 致命 的 是 ， 关 于 "地 址 "和 "内 存 位 置 "等 存储 实现 的 〈《 反 ) HR: 按 特定 基本 单位 
( 字 节 ) 连续 的 存储 。 这 种 过 于 具体 的 约定 换 来 符合 现 有 体系 结构 的 可 实现 性 (以 及 关于 “ 布 
局 "的 控制 ， 如 offsetof 的 易 实 现 性 ) ， 却 为 类 型 系统 的 简化 制造 了 麻烦 ， 同 时 削弱 了 用 户 
对 象 类 型 的 控制 : 无 法 抽象 出 不 确定 布局 但 占用 存储 的 类 型 ， 也 没有 能 力 让 用 户 直接 使 用 标 
准 的 手法 简洁 一 致 地 安排 布局 。 《非常 充 刺 的 是 ， C++11 在 内 存 模型 的 定义 上 更 严谨 更 全 
面 ， 严 格 意义 上 的 限制 却 也 更 大 了 。 ) 


C++ 的 问题 更 严重 些 。 一 个 问题 是 引用 类 型 初始 化 的 非 对 象 复制 初始 化 语义 。 这 点 其 实 
也 可 以 通过 规定 激进 的 非 as-if (可 观察 行为 ) 语义 来 解决 (现在 ISO C++ 关于 特定 的 复制 / 转 
移 构造 就 这 样 做 ， 甚 至 可 以 无 视 副 作用 ) ， 虽 然 这 样 总 体 上 的 语义 或 许 会 更 模糊 ， 让 用 户 更 
无 所 适 从 。 另 一 点 是 ， 在 内 存 模型 和 布局 上 一 直 无 法 完全 由 用 户 控制 GUTES 
类 ， 通 过 offsetof 计算 数据 成 员 地 址 就 无 法 保证 结果 可 预期 ) ， 这 同时 具有 贴近 现 有 体系 


结构 实现 和 便于 高 层 抽象 的 优点 ， 但 另 一 方面 也 可 以 说 都 是 缺点 。 最 后 还 有 一 个 非常 现 
实 的 困难 : HAM. ik C 或 者 C++ 确实 能 通过 整体 改换 设计 (幅度 显然 比 当 年 C 到 C++ 


大 得 多 ) 解决 了 这 样 的 问题 ， 新 的 语言 规范 如 何 适 应 旧 的 程序 ? 如 何 使 用 户 能 够 顺利 迁移 ? 
Maik (C/C++ 的 用 户 ， 以 及 现 有 需要 维护 的 项 目 ) 来 看 ， 这 是 明显 不 实际 的 。 


结论 


基于 以 上 讨论 可 知 ， 要 消除 类 型 系统 的 元 余 带 来 的 负面 影响 涉及 过 多 的 核心 设计 ， 从 现 
有 语言 为 起 点 立即 改进 这 些 缺 陷 可 以 认为 是 不 可 行 的 。 对 于 用 户 而 言 ， 尽 量 清晰 掌握 核心 概 
念 完 成 任务 是 比较 实际 的 。 但 对 于 语言 自身 的 维护 而 言 ， 这 个 问题 导致 加 入 新 的 语言 特性 、 
使 不 同 特性 有 效 协 作 的 难度 大 大 增加 ， 需 要 长 期 努力 才 有 望 缓解 。 


转移 vs 复制 
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ISO C++11 引入 右 值 引用 以 及 转移 构造 等 机 制作 为 转移 语义 的 内 建 支持 。 对 应 原本 的 复 
制 构造 等 机 制 抽象 的 复制 语义 ， 可 以 说 和 转移 至 少 在 语言 层次 上 是 并 列 的 。 那么 转移 和 
复制 有 什么 共同 点 和 区 别 ? 它们 的 关系 如 何 ? 以 下 讨论 几 个 相关 的 问题 。 


1. 不 论 具 体 的 语言 支持 ， 一 般 意 义 上 的 复制 /转移 语 
义 抽象 
复制 和 转移 是 使 程序 从 一 个 执行 状态 迁移 到 另 一 个 执行 状态 的 操作 。 不 过 依赖 的 概念 可 


能 有 些 模糊 。 方 便 起 见 ， 这 里 约定 “ 值 "表示 某 个 抽象 的 单一 〈 可 分 辨 ) 状态 ， 假 设 " 变 量 " 是 可 
变 的 值 的 容器 。 


对 于 最 简单 情况 ， 值 可 以 取 空 值 Gefr e ) 和 非 空 的 非 平凡 值 Ge v). 


(不 过 ， 一 般 这 样 的 抽象 是 不 够 的 ， 因 为 复制 和 转移 本 质 上 表示 的 不 仅 是 决定 性 
(deterministic) 操 作 ， 前 后 两 个 状态 可 以 有 未 指定 的 值 。 因 此 可 以 引入 一 个 表示 变量 的 未 指定 
的 取 值 ? 。) 


设 程序 P 的 两 个 执行 状态 E 和 E2 ， 每 个 执行 状态 有 两 个 取 值 状态 (“变量 "”) v 
和 v2 ， 分 别 可 以 取 值 v 和 e ， 也 可 能 是 ? o 


Ei 为 P 的 初始 状态 ， 满 足 EL = {{v1i, v2} | va = v) 。 以 ,表示 映射 ， 那么 有 : 
复制 操作 c: E1- E2 满足 E2 = {{v1, V2) | Vi = vA V2 = V) 
转移 操作 M: E12 E2 满足 E2 = ((Va, V2) | V2 =v} o 


直观 理解 ， 一 个 变量 的 值 在 复制 后 出 现在 原来 的 变量 和 另 一 个 其 它 变量 中 ; 一 个 变量 的 
值 在 转移 后 出 现在 另 一 个 其 它 变量 中 。 


2. 结 构 化 复制 和 转移 


为 了 在 语言 中 表达 复制 和 转移 ， 需 要 借助 关 型 系统 及 约定 的 原始 操作 。 


对 于 复制 来 说， 除了 少数 " 纯 男 数 式 " 的 语言 ， 基 本 的 操作 是 赋值 《本 身 就 是 一 种 复制 ) 。 
相反 ， 可 能 由 于 复制 可 以 用 转移 和 赋 " 空 值 " 复 合 ， 一 般 语言 不 直接 提供 转移 操作 。 


实际 上 ， 赋 值 作 为 简单 的 复制 一 般 是 不 够 用 的 。 一 般 来 说 ， 语 言 提 供 的 抽象 手段 允许 复 
用 基本 操作 ， 对 于 构建 复制 和 转移 操作 也 不 例外 。 和 经 典 的 画 数 调用 类 似 ， 这 里 的 有 效 的 复 
用 可 以 是 结构 化 的 : 递 为 的 且 有 层次 性 的 。 


C++ 提供 了 复制 构造 表达 一 种 符合 结构 化 程序 思路 来 构建 复制 (初始 化 ) 语义 : BEL 
类 型 的 复制 使 用 成 员 复制 (以 及 构造 男 数 体 的 其 它 副 作用 ) ， 直 至 基本 类 型 的 复制 (ER 
值 ) 。 自 定义 类 型 的 复制 构造 反 过 来 也 成 为 了 复制 赋值 的 基础 。 


C++11 的 转移 构造 也 使 用 类 似 的 机 制 。 而 对 于 基本 类 型 来 说 ， 复 制 和 转移 在 这 里 是 一 致 
的 。 


从 上 面 的 形式 可 以 看 出 ， 复 制 实质 章 含 转移 : 任何 复制 都 是 转移 ， 复 制 是 附加 了 更 强 约 
束 的 转移 。 


逻辑 上 转移 的 实现 似乎 可 以 用 复制 和 删除 取代 ， 或 者 扩展 转移 机 制 以 实现 复制 。 看 起 来 
似乎 提供 复制 和 转移 两 套 近 似 的 机 制 有 点 浪费 。 那 么 : 


a. 复制 能 代替 转移 吗 ? 


答案 是 可 行 的 一 一 事实 上 C++11 前 就 是 这 样 做 的 。 但 是 C++ 在 这 里 有 一 个 特性 一 一 复制 
构造 允许 复制 成 员 以 外 的 副作用 一 一 导致 了 致命 的 弱点 : 复制 开销 无 法 被 轻易 优化 掉 。 为 了 
克服 这 点 ， ISO C++ 其 至 有 专门 的 语义 规则 允许 忽略 复制 的 副作用 。 区 分 复制 和 转移 人 允许 更 
好 地 减少 不 必要 的 开销 。 在 逮 辑 上 也 有 更 重要 和 普通 的 漏洞 。 原 理 见 下 文 。 


b. 转移 能 代替 复制 吗 ? 


让 转移 成 为 更 “基本 "的 复制 ， 扩 展 转 移 以 实现 复制 至 少 对 于 C++ 来 说 也 不 符合 实际 。 复 
制 无 法 被 转移 直接 取代 ， 除 非 允 许 重 载 基本 类 型 的 操作 一 如果 是 这 样 ， 基 本 类 型 的 操作 又 
用 什么 表示 呢 ? 在 C++ 的 框架 内 部 行 不 通 ， 而 暴露 底层 实现 (如 汇编 ) 给 用 户 看 来 也 不 是 干 
净 的 做 法 。 





3. 控 制 流 中 断 : 异 弟 安全 


比较 ova, v2} | Vi=v} 、 {{¥1, V2} | Vi =vAV2=v} 和 {{v1, v2} | v2 = v) 
， 可 见 复制 操作 和 转移 操作 在 这 里 有 一 个 根本 的 不 同 : 复制 操作 需要 多 维持 一 个 状态 (“ 变 


E). 


从 体系 结构 上 〈 注 意 ， 并 不 限于 具体 语言 的 实现 ) 来 说 ， 若 不 限定 状态 在 语言 实现 上 的 
某 一 个 phase of execution 普通 地 ， 如 编译 时 ) ， 复 制 操作 必然 需要 申请 获取 资源 (典型 
地 ， 如 内 存 ) ; 除非 预 留 (本 质 上 来 说 和 限定 phase 类似， 所谓“ 静态” 的 优化 ) ， 这 种 资源 
的 分 配 总 是 可 能 失败 。 


一 旦 失败 ， 依 赖 于 被 复制 的 状态 的 操作 就 不 能 进行 ， 即 错误 必须 被 处 理 ; 否则 逻辑 上 就 
不 符合 期 望 了 一 也 就 是 错 的 。 由 于 基本 操作 的 普通 性 ， 让 控制 流 中 断 而 不 是 让 用 户 在 调用 
端 手动 检查 是 比较 简便 的 做 法 : 在 C++ 中 即 抛 出 异常 。 〈 因 为 允许 失败 以 及 析 构 函数 保证 的 
决定 性 生存 期 终止 语义 , “FB” C++ 的 对 象 可 以 很 直接 地 作为 资源 的 抽象 ， 即 RAI 惯用 
法 。) 





上 面 提 到 过 的 复制 和 转移 是 结构 化 的 ， 这 意味 着 除了 基本 类 型 (复制 和 转移 一 样 ， 没 有 
异常 ) 外 在 任何 层次 都 得 考虑 这 个 问题 。 只 要 有 一 层 复 制 初始 化 操作 (复制 或 转移 ) 可 能 
现 异常 ， 那 么 依赖 于 这 个 不 保证 无 异常 的 操作 的 复制 初始 化 都 不 能 幸免 。 也 就 是 说 复制 可 能 
抛 出 异常 这 点 在 一 般 意 义 上 是 普 逗 的 (注意 C++03 的 实践 已 经 证 明了 限制 异常 规范 的 做 法 的 
失败 ) 。 


而 转移 操作 没有 这 个 限制 。 理 论 上 来 说 ， 任 何 转移 操作 总 是 可 以 被 设计 为 保证 成 功 的 。 
所 以 转移 操作 往往 用 noexcept 限定 没有 异常 ; 标准 库 的 泛 型 组 件 一 般 也 要 求 被 操作 的 对 象 
类 型 可 无 异常 抛 出 转移 。 


考虑 到 异常 安全 和 无 异常 抛 出 保证 实现 的 困难 性 ， 这 个 差异 是 如 此 重要 和 普通 ， 以 至 于 
即便 无 视 复 制 初始 化 的 性 能 问题 (毕竟 还 可 能 让 RVO 等 挽救 一 下 ) ， 单 独 区 分 出 转移 也 是 相 
当 有 意义 的 。 


4. 转 移 和 交换 


注意 M: E1 E2 HB, e 和 e 是 对 称 的 。 这 意味 着 两 点 : 
a. 转移 本 质 上 是 一 种 (对称 的 ) 状态 迁移 ; 
b. E1 和 E2 作 为 执行 状态 可 以 置换 。 


对 于 C++ Kit, a. 的 意义 在 于 如 果 转 移 可 以 用 简单 的 操作 实现 。 注 意 对 象 转移 后 仍然 会 
被 销毁 。 对 于 基本 类 型 对 象 ， 因 为 没有 有 副作用 的 析 构 (non-trvial destructor) ， 所 以 可 以 直接 
复制 /赋值 〈 这 再 次 说 明了 基本 类 型 复制 和 转移 的 一 致 性 ) 。 


不 过 对 于 整体 状态 来 说 还 有 个 陷阱 ， 导 致 程序 不 一 定 总 是 能 得 到 期 望 行为 。 (Vi, v2) | 
V2 =v} 隐 式 地 菇 含 “ v1 = ? ”， 即 被 转移 的 “变量 "的 状态 是 无 法 保证 可 预期 的 。 如 果 需 要 可 
预期 (仍然 能 足够 安全 地 使 用 被 转移 了 的 资源 ) ， 那 么 简单 复制 就 不 一 定 行 得 通 了 。 比 如 说 
一 个 预期 保持 所 有 权 、 通 过 delete 释放 的 内 建 指针 ， 如 果 复制 代 蔡 转移 而 不 清空 ， 最 后 会 
导致 多 次 delete 。 很 遗憾 这 里 C++ 无 法 有 效 地 提供 安全 检查 。 一 种 安全 的 惯用 法 是 使 
用 交换 例 程 (如 std::swap ) 来 突现， 不 过 需要 指定 的 类 型 可 交换 。 这 早 就 是 一 种 异常 安全 
代码 的 常见 技巧 一 一 C++11 也 约定 swappable 要 求 无 异常 抛 出 。 





b. 是 C++ 语言 层次 上 难以 利用 的 特性 (和 复制 构造 类 似 ， 转 移 操 作 也 人 允许 存在 用 户 自 定 
义 的 副作用 ， 省 了 转移 的 优化 也 是 受 限 的 ) ， 在 此 不 讨论 (Mi, Prolog 什么 的 就 算 





5. 转 移 语 义 : 显 式 实现 VS BSR 


一 个 语言 可 以 不 直接 支持 转移 需要 的 特性 ， 而 只 是 支持 间接 操作 的 “引用 ”类 型 ， 这 样 仍然 
可 以 实现 转移 。 这 时 候 典 型 的 转移 实现 被 称 为 “ 浅 复 制 ”(shallow copy) ， 区 分 于 完全 值 语义 的 
( 递 轨 )“ 深 复制 "(deep copy)。 


对 于 语言 设计 来 说 ， 这 可 以 使 设计 简化 ， 而 不 必 像 C++11 那样 引入 右 值 引用 类 型 来 折腾 
类 型 系统 。 不 过 ， 这 样 往往 意味 着 用 户 需 要 完成 更 多 的 重复 代码 。 至 少 对 于 C++ 这 样 对 象 模 
型 中 显 式 声称 “对 象 即 存储 ”精神 (继承 于 CO 来 说 的 语言 来 说 是 这 样 。 

从 实际 需求 出 发 ， 理 想 情况 下 ， 语 言 应 该 能 够 分 辨 出 转移 和 复制 这 两 种 不 同 的 需求 。 像 
C++11 在 类 型 系统 上 做 的 手脚 已 经 被 证 明 可 行 的 ， 那 么 除 此 之 外 ， 有 没有 比 让 用 户 显 式 实 现 
更 简单 的 方法 呢 ? 上 面 说 过 ， 至 少 在 C++ 中 复制 和 转移 无 法 互相 取代 ， 不 过 如 果 不 限 C++ 嘛 


a. 转移 取代 复制 。 要 是 提供 允许 用 户 指定 行为 的 基本 类 型 操作 的 公开 接口 ， 那 么 转移 就 可 能 
直接 作为 复制 的 基础 了 。 不 过 ， 因 为 C++ 仅 有 的 静态 分 派 和 多 态 〈 重 载 ) 依赖 于 类 型 系统 ， 像 
C++ 要 这 么 搞 恐 怕 类 型 上 的 折腾 还 是 省 不 掉 ...... 而 实际 上 ， 分 派 也 好 模式 匹配 也 好 需要 的 签名 
要 是 类 型 以 外 的 其 它 新 特性 ， 本 质 上 来 说 也 属于 传统 类 型 理论 的 范畴 内 。 

b. 复制 取代 转移 。 不 使 用 显 式 类 型 ， 取 消 复制 初始 化 的 副作用 ， 让 语言 实现 预测 复制 到 底 需 
要 怎么 实现 。 这 是 常见 函数 式 语 言 的 做 法 。 这 种 复制 相对 很 容易 优化 掉 ， 代 价 是 实体 CR 
=") 无 法 隐 式 地 作为 具有 状态 的 资源 抽象 。 


BFC. Java 什么 的 ..…... 算 了 ， 老 实 人 肉 实现 吧 。 
所 以 C++ 其 实 也 算 个 典型 ， 虽 然 看 上 去 粳 烂 混乱 不 堪 大 用 ， 不 过 小 心 点 用 也 还 算 差 强人 


坑 掉 算 了 。 


正确 地 黑 C 


Created @ 2014-07-29 09:01, rev v5 2015-04-12, markdown @ 2015-09-14. 
本 版 暂时 当 作 提 纲 ， 不 做 详细 展开 讨论 ， 以 后 可 能 更 新 。 
注意 : 本 文 主旨 不 是 政治 正确 。 


1. 设 计 
C 的 设计 相对 于 同期 来 说 是 局 促 的 。 C 语言 具有 明显 的 历史 局 限 性 是 不 争 的 事实 。 


类 型 系统 是 一 个 显著 的 例子 。 理 论 typed lambda calculus 在 当时 (70 年代) 即便 
没有 流行 也 已 经 有 了 数 十 年 的 发 展 ， A C 的 设计 并 没有 有 效 利 用 当时 的 理论 成 果 ， 还 在 前 
人 的 经 验 上 开 洞 〈 比 如 奇 划 的 函数 指针 转换 ) 。 


类 似 地 ， 数 组 类 型 也 不 是 第 一 类 实体 ， 也 会 有 类 型 上 的 修正 。 


ao 限制 用 户 的 自由 外 ， 唯 一 的 好 你 也 许 就 是 顺应 之 前 
J 现 的 习惯 了 。 不 过 ， 今 非 昔 比 ， 这 样 的 设计 并 没有 简化 现在 的 语言 实 


它 语 Ao 





这 种 仓促 的 设计 影响 深远 。 C++ 至 今 仍然 把 一 些 获 始 于 CBS BIAUETE AE 
+e" A, ee ae eee D 这 些 无 谓 
的 复杂 性 今后 可 能 永远 也 无 法 移 除 。 


左 值 (lvalue) 是 一 个 不 幸 的 设计 。 一 开始 作为 文法 性 质 ， 并 没有 考虑 到 潜在 的 复 杀 ， 以 至 
于 后 来 引入 const 后 ， 功 能 和 区 分 左 值 在 相当 大 范围 内 重复 了 ( 若 完 全 一 致 反倒 还 好 点 ) 。 
这 点 另外 有 说 过 ， 按 下 不 表 。 而 这 里 重要 的 是 ， 也 无 法 指望 丢弃 宛 余 性 ( C++ 甚至 变 本 加 
B). 

当然 ， 考 虑 历史 的 主干 ， C 来 自 于 B ， 来 自 于 BCPL ， 来 自 于 CPL ， 来 自 于 ALGOL 
60 ， 来 自 于 ALGOL 58 ， 来 自 于 FORTRAN 。 这 些 语言 都 没有 这 方面 的 合理 经 验 积累 。 所 
以 C 的 设计 的 局 了 上限， 并 不 难 想象 。 





ER 不 过 ， 有 些 被 纠正 过 来 了 ， 
例如 BCPL Es J 注释 (/) , REE C zz. C++ cen Non 一 些 C-like 派生 
重新 吸收 。 


还 有 一 些 奇 本 的 莫名 其 妙 的 地 方 。B 里 面 叫 vector 的 东西 说 的 好 好 的 ， 怎 么 到 C 里 面 就 变 
成 array 了 了 呢 ? 只 是 因为 加 了 个 残疾 的 “数组 类 型 "? (B 是 没 好 意思 说 成 有 类 型 的 ..…....) 为 什么 
array 而 不 是 vector 就 非得 能 对 元 素 “O(1) 访 问 ” 这 种 偏见 是 谁 发 明 的 ? ( 另 一 个 不 良 后 果 是 











A.Stepanov 摘 STL 的 时 候 没 词 了 就 顺手 失 了 个 .………) 


2. 标 准 化 的 有 效 性 


不 能 否认 ， 在 被 规范 化 的 语言 (而 不 是 实现 ) 针对 平台 的 可 移植 性 来 讲 ，C 差 不 多 应 该 是 
现在 的 语言 中 最 强 的 了 。|SO C++ 在 某 些 少数 极端 情况 下 的 可 移植 性 的 确 不 如 ISO C ( 见 
WG21/N4049) 。 而 其 它 语言 ， 假 定 1 字 节 不 等 于 8 比特 的 大 小 就 足够 打 退 堂 鼓 ， 若 不 够 可 
以 再 加 上 人 允许 原 码 / 反 码 作 为 有 符号 数 表示 一 一 这 两 者 是 ISO C 和 ISO C++ 都 明确 支持 而 其 
它 大 部 分 语言 规范 都 与 之 矛盾 的 未 西 。 





标准 化 的 一 个 重要 作用 是 取得 共识 ， 避 免 一 些 重 复工 作 ， 提 升 可 移植 性 ， 减 轻 用 户 〈 包 
括 实 现 者 ) 的 负担 。 若 标准 被 架空 而 没有 被 实际 使 用 ， 标 准 本 身 就 失去 了 绝 大 部 分 意义 。 


这 里 的 一 个 反面 素材 是 C# ，.NET 的 实现 都 出 到 5.0 T, ECMA-334 到 现在 还 是 当年 2 
的 版 本 .….…. (还 有 C# 里 把 finalizer 叫 成 destructor 的 奇 配 导致 混乱 的 说 法 在 ECMA 里 被 纠 
IET, MSDN 上 仍然 籽 错 就 错 。) 


哈 ，ECMA 是 区 域 性 组 织 ， 不 够 权威 ?一 一 人 家 现在 叫 ECMA International 好 不 好 。 不 
过 不 够 权威 好 像 是 能 坐 实 点 ， C++/CLI 在 ISO 标准 化 被 英国 的 意见 驳回 ECMA 就 通过 成 
ECMA-372 f...... 


那么 这 里 就 拿 C++ 比较 好 了 。 同 样 是 1SO/IEC JTC1/SC22 下 的 工作 组 ， 两 者 的 产 出 看 
似 类 似 ， 效 果 大 相 径 庭 。 


而 敢 无 视 WG21 的 实现 据 我 所 知 ， 一 个 都 没有 。 即 便 GNU FE pbk it Al ip 
准 划 清 界限 ， 现 在 来 看 在 C++ 前 端 是 口 嫌 体 正 直 了 。 反 观 GNU C ， 这 个 效应 就 弱 得 多 。 





简 而 言 之 ，ISO C 虽 然 整体 上 是 有 效 的， 但 是 对 于 语言 实现 者 来 说 ， 效 力 略 为 不 足 。 
概括 起 来 ， 这 有 两 方面 原因 。 


其 一 是 WG14 本 身 的 活动 没有 WG21 强 调 “open”。 WG21 的 文档 早 就 被 公开 多 年 ， 而 
WG14 的 没 记 错 的 话 到 2012 年 才 被 公开 。 


可 能 是 由 于 C++ 本 身 的 复 厅 性 以 及 历史 教训 (轻率 引入 export 和 dynamic exception 
specification) 需要 避免 消极 的 design by committee 的 影响 ， 参 与 C++ 工作 讨论 的 非 委员 会 
用 户 活动 非常 显著 ， Google Groups 里 讨论 标准 提议 的 论坛 已 经 开设 了 好 几 年 。 isocpp.org 
也 是 一 例 。 WG21 #2 github 上 拥有 公开 仓库 允许 用 户 pull request 修改 标准 草案 的 内 
Bo 


RACHAR ? 一 个 对 应 的 东西 都 没有 。 


作为 工作 产 出 来 看 ， WG14 公开 的 paper 也 要 比 WG21 少 得 多 (14 ......) 


C++ 比 起 C 真 有 复杂 到 这 种 程度 么 ?还 是 说 C 的 “社区”( 暂 且 这 么 说 ) 在 传统 上 就 "不 够 
进取 ”? 或 者 根本 不 愿意 达成 共识 呢 ? 


第 二 点 恐怕 未 必 。 POSIX 就 比较 活跃 了 。 


可 笑 的 是 ， 维 护 POSIX 的 Austin Group 和 WG14 之 间 也 能 出 现 琐碎 的 意见 分 歧 。 参 见 
WG14/N1174 。 


原因 是 其 二 一 一 还 是 C 的 设计 。 
C 欠缺 了 太 多 东西 。 
seri psig aie pagal Ts dad 图 数 返回 动 oom 





ISOC c BL RU n . m POSIX Hd 传统 C 
用 户 大 概 不 会 这 么 认为 (特别 是 GNU ) 。 


其 它 主流 语言 里 还 有 这 种 奇 屯 问题 么 ? 
而 ISO C 新 引入 的 东西 ， 很 多 也 不 是 自身 的 设计 。 


ISO C11 引入 的 sequenced before 的 wording ， 是 WG21/N2239 提出 来 的 。 注 意 ， 是 
C++ 的 paper, C 后 来 照搬 过 去 了 (与 之 相关 的 还 有 并 发 模型 ) 。 


(Wi, C++ 比较 激进 删除 了 之 前 ISO C 引 进 的 sequence point， 不 过 这 里 有 个 bug， 漏 了 
sequenced after 这 个 定义 ， 我 邮件 过 去 了 ， 处 理 情况 见 这 里 。) 


C11 同时 照搬 过 去 的 还 有 多 线程 和 atomic 的 基本 概念 。 由 于 语言 特性 上 的 先天 不 足 ， C 
没 法 做 到 C++ 的 优雅 〈 虽 然 这 词 普通 恶心 ， 但 用 在 这 里 的 确 不 错 ) 。 (看 看 那个 奇 苑 的 


AEOMICS ...... ) 
C11 还 不 得 不 引入 了 某 种 意义 上 的 “临时 对 象 " ， 这 种 手段 又 是 埋 坑 。 


C11 绝无仅有 的 东西 呢 ? 哦 ， 比 如 generic-selection ?我 问 一 下 ， 这 里 谁 对 Generic 
有 印象 的 ? 知道 它 是 怎么 回 事 的 ?能 说 清 解决 了 什么 问题 ， 并 且 是 怎么 起 作用 的 ? 有 多 少 人 
在 实际 代码 中 用 过 ?在 其 它 语言 中 类 似 的 东西 是 什么 ? 


ISO C Hb ISO C++ 多 出 来 的 ， 特 别 是 近来 新 添加 的 ， 差 不 多 尽 是 广大 C 用 户 都 难以 认同 
的 琐碎 玩意 儿 .……. 


WG14 ， 请 不 要 玩 脱 。 


3.H PRA 


本 来 我 在 这 里 不 想 攻击 任何 人 。 但 是 C 的 用 户 在 辩护 语言 和 实现 表达 自己 的 观点 时 ， 表 现 
出 来 的 槽 点 明显 比 其 它 语言 的 用 户 多 得 多 ， 并 且 不 少 自 以 为 得 计 ， 优 越 感 爆棚 。 忍 无 可 忍 。 


在 这 里 起 到 负面 影响 的 用 户 都 可 以 概括 成 不 同 程度 的 “不 懂 装 懂 ” 在 不 熟悉 的 领域 里 睹 BB 
“误导 ”， 不 过 可 以 分 成 那么 几 类 (也 有 不 少 复合 的 ) 


a RABEL 


认为 C 是 程序 设计 语言 发 展 历史 上 的 “正统 ”一 一 却 连 老 祖 宗 ALGOL 的 地 位 和 影响 都 不 知 
道 ， 甚 至 和 亲 驳 B 语 言 之 间 的 差别 都 一 问 三 不 知 。 


不 管 可 以 引证 的 依据 和 理性 思辨 而 盲目 认同 一 些 经 不 起 推 襄 的 观点 〈 比 如 C 比 起 其 它 高 级 
总 是 “性 能 高 “开发 效率 低 ”) 。 


i 


c) Al 


缺少 其 它 语言 的 使 用 经 验 却 腾 测 行为 和 实现 。 其 至 对 C 自 身 的 基本 概念 比如“ 对象“ 左 
E RELTA”) 都 说 不 清楚 。 


d) 不 独立 思考 


缺乏 怀疑 精神 ， 对 符合 固有 印象 的 说 法 来 者 不 拒 ， 却 不 考虑 理由 。 “RITA”... “人 家 xxx 
就 是 用 C 写 的 1” 


e) 缺 少 专业 基础 








没有 PLT 常识 ， 对 其 它 语言 品 头 论 足 ， 
出 非 理 性 的 批评 。 





M 


经 验 上 来 看 ， 这 些 用 户 中 最 核心 的 部 分 同时 是 UNIX 的 脑残 粉 一 一 包括 一 些 只 用 过 
Linux ane 己 包 装 成 UNIX 粉 的 。 


这 些 用 户 ， 绝 大 多 数 都 说 不 清楚 C (也 许 还 有 UNIX) 历史 和 发 展 方向 之 类 的 详细 问 
题 ， 要 提 一 些 现 有 实现 的 缺陷 和 可 改进 之 处 都 支 支吾 下， 甚至 说 不 清楚 为 什么 好 用 ， 满 足 了 
什么 需求 〈 某 些 果 粉 都 比 他 们 更 强 一 点 ) o 


脑残 粉 本 身 不 足 一 提 ， 不 过 当 一 些 “ 知 名 人 物 " 也 具有 这 些 特质 之 后 ， a. 
么 被 撑腰 的 了 一 一 却 不 知道 很 多 “大 病 " 在 评论 这 里 的 问题 上 很 多 也 是 半 外 行 ， 跟 普通 用 户 无 


ca 
Fro 


4. 专 治 各 种 不 服 : 


有 谁 自 认为 对 C 本 身 了 解 更 深刻 而 全 面 反 对 以 上 观点 的 (特别 是 挂名 在 WG14 内 的 一 一 
有 么 ?) ， 欢 迎 对 号 入 座 战 个 痛 。 
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既然 提 到 了 有 符号 数 问题 ， 这 里 加 列 个 草稿 。 虽 然 算 不 上 C 的 问题 ， 但 不 少 C 和 C++ 
用 户 都 仍然 对 这 个 问题 稀里糊涂 以 至 于 设计 出 渣 接口。 


对 于 C/C++ 以 及 其 它 大 部 分 语言 来 说 ， 不 管 是 有 符号 数 还 是 无 符号 数 ， 首 先 指 的 都 是 刻 
意 设 计 用 硬件 上 具有 特定 表示 的 整数 数据 类 型 ， 即 有 存储 空间 大 小 和 范围 限制 的 、 值 的 表示 
连续 的 定 长 整数 。 从 类 型 系统 的 角度 上 来 说 ， 对 于 表示 算术 操作 的 类 型 而 襄 ， 类 型 限定 它 有 
意义 的 取 值 范围 ， 同 时 可 用 于 决定 它 具 有 的 操作 。 


这 里 的 整数 类 型 和 数学 中 的 整数 显然 不 同一 一 最 显然 地 ， 它 是 有 限 集 。 但 关于 操作 上 的 
不 同 就 经 常 被 有 意 无 意 地 忽略 。 大 多 数 情况 下 这 不 是 被 期 望 的 。 





实用 中 ， 有 符号 数 和 无 符号 数 的 不 同 在 于 ， 无 符号 数 具 有 确定 的 表示 方式 ， 且 尽管 在 不 
同 的 体系 结构 上 大 小 不 一 致 ， 但 都 遵循 2^n 的 模 算术 。 注 意 和 数学 中 的 整数 的 一 般 算术 操作 的 
异 ， 例 如 模 算术 减法 在 不 够 减 时 结果 会 回 绕 (Wrapped) 一 一 比 被 减 数 更 大 。 


而 有 符号 数 则 没有 这 样 普 适 的 一 致 性 : 至 少 可 以 有 原 码 、 补 码 和 反 码 表示 。 ISO C 和 
ISO C++ 都 规定 : 允许 有 符号 数 使 用 三 种 表示 方式 (之 一 ) 。 占 用 空间 相同 的 有 符号 数 的 表 
示 不 保证 可 移植 性 。 同 时 ， 有 符号 数 的 操作 导致 超过 表示 范围 GOGH) 则 行为 未 定义 。 而 对 
于 有 符号 数 的 一 些 转换 和 位 操作 是 实现 定义 行为 。 而 与 此 相反 ， 无 符号 数 的 性 质 要 确定 得 
多 。 在 确定 模 算 术 的 意义 上 可 以 推导 出 一 些 方便 的 性 质 ， 例 如 无 符号 数 一 定 不 会 浴 出 。 无 符 
号 数 也 不 会 有 上 述 有 符号 数 操作 的 实现 定义 行为 导致 的 实现 差异 。 从 实现 角度 上 看 ， 通 常 无 
符号 数 更 容易 被 硬件 高 效 地 实现 。 只 支持 有 符号 数 而 不 支持 无 符号 数 操作 的 实用 体系 结构 似 
平 从 来 就 不 存在 。 


从 抽象 角度 上 看 ， 无 符号 数 的 上 限 比 同样 大 小 的 有 符号 数 更 大 ， 所 以 在 确定 不 需要 符号 
时 ， 更 有 利于 正确 的 数值 表示 。 


因为 上 述 原 因 ， sizeof 的 返回 值 size c 类 型 确定 是 无 符号 数 类 型 。 类 似 地 ， 在 C 和 
C++ 中 ， 除 非 必要 ， 应 当 避 免 使 用 有 符号 数 。 


相对 地 ， Java 使 用 (范围 被 硬 编码 的 ) 有 符号 数 而 放弃 使 用 无 符号 数 。 这 在 一 般 意义 上 
是 一 种 错误 的 〈 类 型 系统 ) 设计 : 损失 功能 且 带 来 了 更 多 的 麻烦 。 


除了 失去 上 述 无 符号 数 确定 的 性 质 〈 Java 倒是 确定 了 有 符号 数位 操作 的 语义 ) ， 这 导致 
一 些 只 需要 无 符号 数 的 场合 ， 同 样 的 大 小 范围 损失 了 近 一 半 ， 并 且 导 致 程序 更 加 不 清晰 : 用 
户 没有 办 法 表示 “我 这 里 就 只 需要 一 个 非 负 数 “ 你 应 该 能 预期 结果 是 个 非 负数 ”( 天 杀 的 Java 
还 没 typedef 和 宏 wx ) o 


只 有 有 符号 数 导 致 Java 需要 引入 >>> 操作 符 以 便 区 别 对 待 符 号 位 ， 在 另 一 方面 导致 了 
语言 的 复杂 。 缺 少 无 符号 数 还 导致 一 些 应 用 上 的 麻烦 一 一 例如 实现 随机 数 生成 器 、 通 信 协 议 
或 者 图 像 处 理 算法 之 类 。 





Java 抛 奔 有 符号 数 的 理由 据 信 是 “无 符号 数 更 复杂 ， 因 此 不 需要 '` 一 根据 上 面 的 分 析 ， 
这 是 典型 的 扯 蛋 。 一 个 比较 可 能 的 实际 理由 是 对 无 符号 数 "莫名 其 妙 "地 回 绕 的 无 谓 恐 惧 ， 特 别 
是 对 结果 比较 操作 上 。 但 事实 上 ， 任 何 一 个 对 这 些 语言 中 算术 操作 有 清楚 了 解 的 用 户 ， 都 不 
应 该 陷入 这 种 陷阱 ， 特 别 是 编译 器 能 轻易 检查 出 对 有 符号 数 的 不 保证 兼容 性 使 用 的 情况 下 。 


大 概 也 正 是 因为 如 此 ， C# 没有 在 这 里 “借鉴 *” Java ， 还 是 补充 了 uint 。 不 过 ，C# 的 
语言 规则 导致 uint 和 int 诊断 消息 设置 有 些 神经 质 ， 大 量 用 户 代码 中 还 是 充斥 着 本 来 不 
应 该 出 现 的 int 。 设 计 者 应 该 只 是 确信 uit 不 可 少 ， 但 只 是 有 符号 数 的 补充 ， 而 非 尽 量 
鼓励 使 用 的 对 象 。 这 和 C/C++ 的 设计 非常 不 同 ， 也 并 没有 完全 发 挥 无 符号 数 的 好 处。 


于 是 话说 回来 ， 为 什么 在 C/C++ 这 样 支持 并 且 某 种 意义 上 更 鼓励 尽量 使 用 有 符号 数 的 语 
言 中 ， 为 什么 还 是 有 人 非得 喜欢 int BEE? 


恐怕 原因 和 上 面 的 一 致 。 简 而 言 之 : 这 些 人 (包括 某 些 抽风 的 语言 设计 者 ) 自己 就 没 把 
这 种 受 限 的 定 长 整数 算术 操作 搞 明 白 ， 又 欠缺 庶 愤 、 耐 心 和 全 急 考 虑 ， 可 能 还 有 些 偏执 。 
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关于 C/ C++ 和 汇编 语言 的 关系 。 


1.C 是 C，C++ 是 C++， 汇 编 是 汇编 。 


ISO C 规 定 了 允许 asm 关键 字典 入 汇编 代码 作为 扩展 ， 但 C 并 不 依赖 这 项 特性 。 


可 能 由 于 Bjarne Stroustrup 等 对 阻止 语言 分 裂 的 立场 (如 果 需 要 另 一 个 例子 ， 可 以 参照 
对 Embedded C++ 的 观点 ) , ISO C++ 没有 ISO C 那 种 “扩展 "的 概念 ， asm 关键 字 直 接 是 
正式 的 语言 组 成 部 分 。 


C++ 的 asm-definition 的 含义 是 实现 定义 的 ， 但 同样 也 并 不 见得 里 面 就 是 汇编 语言 
— 例如 ， Cheerp 使 用 asm 内 联 JavaScript (虽然 后 来 改 为 了 _asm_) .... 


不 管 是 C 还 是 C++ ， 作 为 实例 的 不 支持 内 联 汇编 的 实现 也 不 难 找 ， 例 如 用 于 ARM 和 
x64 的 VC++ 。 


所 以 即便 是 C ， 指 望 和 汇编 互 操作 在 语言 层面 上 缺乏 一 般 的 可 移植 性 。 


2. 作 为 实现 的 汇编 语言 和 对 象 语言 (例如 C 或 C++ 
) 的 关系 。 


一 个 常见 的 误解 是 " C 和 汇编 对 应 ”。 事 实 上 这 种 保证 根本 不 存在 。 对 于 其 它 高 级 语言 也 
大 抵 如 此 。 尽管 现实 大 多 数 C 或 C++ 的 实现 使 用 汇编 作为 中 间 表 示 ， 没 有 谁 强制 所 有 实现 都 
遵循 这 一 点 。 于 是 这 里 需要 排除 不 使 用 汇编 作为 中 间 表 示 的 语言 。 也 就 是 说 ， 要 考虑 这 点 ， 
就 不 是 讨论 C 或 C++ 语言 本 身 而 是 具体 实现 了 。 


需要 肯定 的 是 ， 对 于 某 个 实现 来 说 ， 作 为 中 间 表 示 的 汇编 和 C 和 C++ 的 某 些 操作 的 语义 
接近 ， 有 一 些 现实 意义 ， 主 要 在 于 互 操作 性 的 清晰 简便 。 


3. C 和 C++ 在 这 里 的 差异 。 


注意 ， 对 于 使 用 C 和 C++ 的 用 户 ， 上 述 需求 都 存在 并 可 以 实现 。 CH C++ 实现 在 此 的 
主要 差异 在 于 ， C++ 提供 更 高 级 的 抽象 ， 这 些 操作 在 C 中 往往 没有 对 应 ， 所 以 这 部 分 在 这 里 
没有 上 比较 的 意义 。 从 实现 的 复 厅 性 来 看 ，C 和 C++ 公共 具有 的 一 些 操作 往往 比较 能 直观 地 
被 理解 。 C++ 的 其 余部 分 涉及 到 更 多 实现 细节 处 理 起 来 较为 困难 。 如 果 使 用 这 些 操作 ， 的 确 
会 导致 一 些 现实 问题 ， 特 别 是 C++ 实现 的 ABI 往往 比 C 实现 的 更 混乱 。 


但 是 ， 在 需要 考虑 这 类 需求 的 场合 ， 使 用 什么 操作 是 可 控 的 。 如 果 只 使 用 C++ 和 C 中 类 
似 的 特性 ， 那 么 问题 实际 上 差不多 复杂 。 


差异 只 是 用 户 对 C 和 C++ 的 实现 (即便 排除 C++ 中 实现 起 来 看 似 不 够 直观 的 部 分 ) 理 
解 有 所 不 同 而 已 。 


也 就 是 说 ， 到 诡 还 是 用 户 自己 的 原因 。 (不 作 死 就 不 会 死 ..…..….. ) 
至 于 运行 时 依赖 问题 导致 C++ 比 C 在 这 里 欠缺 可 用 性 ， 这 是 另外 的 话题 。 


4. 还 要 注意 的 是 ， 上 面 这 些 到 底 只 是 “接近 ”， 并 不 
DE RS TEBS 1 m". 


这 个 问题 细 说 起 来 可 以 展开 很 多 .…… 
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有 一 个 目的 上 出 发 的 根本 观点 : 设计 可 维护 的 程序 ， 依 赖 的 应 该 是 接口 而 不 是 接口 的 实 
现 。 依 赖 实现 的 hack 只 是 妥协 而 不 应 作为 可 靠 的 常规 手段 。 


对 于 能 够 使 用 这 些 接口 解决 的 问题 ， 不 需要 也 不 应 当 依赖 它们 的 实现 。 


一 般 地 ， 高 级 语言 的 规范 自身 通过 描述 程序 的 语义 和 /或 行为 ， 事 实 上 给 出 了 一 套 更 高 级 
普通 的 接口 。 ABI 规范 作为 适用 于 二 进 制 互 操作 的 低层 次 的 接口 ， 相 对 来 说 提供 的 是 语言 规 
范 的 实现 ， 以 缩小 适用 范围 为 代价 ， 补 充 语 言 规范 中 没有 限定 的 一 些 细节 。 


C/C++ 这 类 本 机 实现 的 ABI 一 般 可 以 分 为 体系 结构 和 编译 器 相关 的 两 部 分 。 可 惜 某 些 实 
现 不 给 出 清晰 的 、 友 好 的 、 公 开 的 规范 ， 拿 黑箱 让 用 户 自己 猜 ...... 活 该 谁 倒 者 呢 。 


没有 足够 能 参照 的 ABl ， 所 以 需要 互 操 作 时 ， 不 得 不 通过 观察 生成 的 中 间 代码 来 预测 实 
际 可 能 的 程序 行为 ， 这 也 不 是 不 能 理解 。 这 种 不 保证 可 移植 性 的 程序 行为 ， 语 言 规范 更 加 管 
不 着 。 

(这 里 中 间 代 码 说 的 就 是 汇编 ， 其 它 类 似 的 还 有 JVM bytecode, CLR IL 之 类 的 中 间 表 
示 ， 不 过 传统 上 汇编 占 这 种 情况 的 绝 大 多 数 。) 


但 在 二 进 制 互 操作 以 上 的 层次 ， 仍 然 依 赖 上 面 的 手段 一 无 理由 、 无 益 地 依赖 实现 
就 有 些 菲 夷 所 思 了 。 或 许 实际 情况 是 ， 这 些 开 发 者 根本 就 对 这 些 原则 性 策略 缺乏 清醒 的 认 
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造成 这 种 情况 的 理由 可 能 就 是 在 于 方便 依赖 “和 汇编 对 应 ”之 类 实现 细节 在 作怪 一 一 至 少 表 
面 上 来 看 ， 只 要 “会 汇编 ， 对 生成 代码 有 个 大 体 的 经 验 ， 很 多 时 候 就 能 弥补 对 不 清楚 接口 导致 
无 法 预料 程序 行为 的 不 足 了 。 这 显然 是 类 似 “ 撞 大 运 编程 "的 错误 姿势 。 只 是 大 部 分 这 类 用 户 
其 至 不 会 考虑 体系 结构 之 间 的 可 移植 性 ， 所 以 这 种 错误 认 知 也 不 容易 起 到 负面 影响 。 一 旦 有 
机 会 ， 坑 的 会 是 谁 呢 。 


由 于 种 种 历史 原因 (比如 说 早期 编译 技术 上 比较 初级 导致 编译 器 一 般 不 会 进行 复杂 的 变换 
优化 ) ，C 的 实现 往往 给 人 一 种 在 接口 规范 之 外 也 容易 找到 “对 应 "的 印象 。 不 过 ， 现 代 的 实 
现 对 此 已 经 渐 行 渐 远 了 。 就 这 点 这 当然 不 能 怪 C ， 那 么 。 这 种 破 事 说 到 底 也 只 能 当 作 某 些 误 
导 作 崇 导致 某 些 用 户 技能 树 点 错 学 从 了 产生 误会 了 。 


此 外 ， 对 于 学 习 语 言 来 说 ， 这 种 错觉 的 危害 一 般 更 大 。 考 虑 到 这 里 的 问题 ， 先 学 汇编 再 
学 C 这 种 路 线 应 当 被 慎重 考虑 ， 不 推荐 一 般 用 户 以 免 形 成 先入 为 主 的 观点 。 当 然 ， 这 是 另外 一 


个 问题 了 。 


除了 上 面 的 需求 导致 的 现象 外 ， 一 个 副 产 物 是 ， C++ 的 抽象 让 不 善于 使 用 正确 姿势 思 
问题 的 新 手 望而却步 了 ， 其 中 不 少 可 能 就 学 看 起 来 "底层 "的 C XT... 


对 于 C++ 来 说 ， 的 确 可 以 算 teachability 的 耳光 响亮 。 不 过 ， 在 “底层 "方面 的 喜 比 用 户 也 
因此 更 少 了 ， 也 许 也 是 好 事 。 


( 另 一 方面 , “ 纯 OOP 5gILFH PR Java 之 流 给 架 走 了 不 少 .……… 不 过 剩 下 来 也 许 还 有 两 
方面 都 特别 逗 的 用 户 ， 那 就 不 怎么 样 了 wwwwwwwww ...... ) 


增补 3 : 


Appended @ 2015-08-09 10:00. 


ZOXA— ARR, WECM C+ 一 起 黑 。 当 然 ， 还 是 C BU. 


总 体 属 于 设计 问题 : 没 理由 的 不 一 致 。 


具体 例子 有 很 多 ， 不 过 C 就 有 并 且 C+ 照搬 的 垃圾 设计 就 稍微 少 一 点 了 。 这 里 值得 一 提 
的 是 去 号 表达 式 一 一 体现 无 能 然而 搞 得 莫名 其 妙 。 


逗号 表达 式 有 乌 用 ?其实 说白 了 就 是 在 本 来 该 写 表 达 式 的 地 方 想 硬 塞 下 语句 而 已 。 严 格 
地 说 ， 意 味 不 明 地 区 分 表达 式 和 语句 这 种 烂 设 计 并 不 限于 C 而 是 某 些 Fortran/ALGOL 系 的 硬 
伤 ， 但 是 在 C 里 还 有 特别 恶劣 的 其 它 影响 : 搞 得 规则 不 伦 不 类 。 肥 号 前 后 的 表达 式 是 不 是 能 确 
定 求 值 顺序 ? 因为 存在 喜 号 表达 式 ， 答 案 是 不 一 定 。 可 能 有 人 说 把 其 它 用 到 号 的 地 方 ( 像 是 
函数 参数 列表 ) 都 改 成 从 左 到 右 就 一 臻 了， 然而 这 样 就 损失 了 “放弃 明确 顺序 而 让 实现 自由 优 
化 顺序 ”的 表达 能 力 ， 和 Java 之 流 一 样 夺 了 。 所 以 锅 在 逗号 表达 式 顺序 自己 。 一 旦 人 允许 表达 式 
套 语句 ， 肥 号 表达 式 就 是 鸡肋 。 事 实 上 也 有 这 样 的 扩展 一 一 GCC 的 语句 表达 式 。 


ft C++ 中 ， 由 于 逗号 可 以 重 载 ， 却 不 提供 操作 数 求 值 顺序 保证 ， 这 种 混乱 更 加 明显 。 所 
以 考虑 到 误会 的 风险 以 及 简化 问题 ， 一 般 回避 重 载 喜 号 ， 基 至 于 泛 型 算法 实现 中 假定 不 存在 
TEER (然而 大 多 数 用 户 是 直接 无 视 了 ) 。 但 这 也 就 是 无 法 直面 从 C 继 承 的 锅 的 能 和 乌 政 策 。 
另外 ， 有 lambda 表达 式 后 ， 非 重 载 的 逗号 就 更 加 鸡肋 了 一 即便 是 不 重 载 的 C++ 逗号 表达 
式 ， 因 为 更 加 不 像 C 那 么 "有 用 ”所 以 更 军用 ， 在 更 复杂 的 语言 规则 中 导致 误会 的 风险 也 更 
大 。 


上 面 说 了 C (C++ 也 一 样 ) 允许 刻意 不 限定 求 值 顺序 。 然 而 这 并 不 是 直接 好 用 的 语言 特 
l. YBase 中 的 ydef.h 提供 了 宏 yunseq 用 画 数 模板 包 了 一 层 才 稍微 清楚 ， 然 而 对 于 void 
表达 式 无 能 为 力 。 而 如 果 喜 号 表达 式 一 开始 就 一 如 本 数 参数 列表 一 致 地 提供 非 限定 顺序 求 值 
的 语义 〈 至 于 需要 限定 字面 顺序 的 地 方 ， 就 用 "语句 ”一 一 比如 说 ， 使 用 分 号 替代 有 逗号 ) ， 那 么 
本 来 就 不 需要 这 样 费事 了 。 可 惜 事实 不 是 这 样 。 





3.1 


Appended @ 2015-08-09 10:04. 


看 起 来 逗号 表达 式 如 何 “ 有 用 "， 也 算 一 般 理 解 了 。 


3.2 


Appended @ 2015-08-09 10:07. 


yunsed 的 实现 (C 就 别 想 了 ) 。 


增补 4 : 


Appended @ 2015-08-09 10:54. 


还 是 关于 烂 用 户 的 事 一 一 但 也 不 全 是 用 户 的 问题 。 


用 户 理解 得 是 否 正确 清晰 而 不 会 造成 破 事 ， 除 了 语言 设计 ， 语 言 规范 的 质量 自身 也 是 重 
要 参考 因素 。 首先 需要 澄清 ， 我 并 非 觉 得 ISO/IEC 14882 作为 技术 文档 的 质量 很 好 一 一 相 
E, C47, BAY bug (虽然 被 我 和 其 他 少数 人 不 断 修正 但 也 不 断 会 窜 出 新 的 ) ， 并 
且 总 体 来 说 并 不 怎么 容易 看 。 


而 这 些 不 足 也 同样 适用 于 ISO/IEC 9899 ， 除 了 不 断 窜 出 新 bug 这 点 〈 嘛 .……. 理 由 是 
ISO C 更 新 实在 太 少 ) 。 


当然 ， 这 两 个 都 够 吊 打 体例 不 够 清楚 到 技术 标准 程度 的 spec 了， 比如 JLS (现在 的 版 
本 甚至 比 ISO C++ Clause 17 之 前 的 部 分 还 长 ， 以 后 我 倒是 看 看 谁 说 Java 语言 规则 简单 然后 
就 能 嘻 喇 打 脸 了 ) 和 M$ 的 C# spec ( ECMA 那个 还 好 不 过 显然 过 时 放置 play FR) 。 


但 是 ， 虽 说 这 两 个 很 多 地 方 都 不 怎么 样 ， 一 些 关键 的 地 方 还 是 有 高 下 的 。 


比如 说 ， 关 于 重要 的 程序 执行 模型 ， 也 就 是 1SO C MET Clause 5 ， 而 ISO C++ 放 在 
了 Clause 1.9 的 内 容 。 〈 且 不 说 C11 在 此 照搬 了 大 段 C++ 11 的 基本 概念 ) 尽管 前 者 定义 清楚 
了 一 个 实用 的 observable behavior 的 概念 ， 后 者 的 内 容 比 前 者 还 详尽 得 多 。 这 导致 了 关于 
conforming 问题 上 后 者 更 清晰 。 


一 个 比较 直接 的 实例 是 ， 关 于 未 定义 行为 "在 什么 时 候 发 生 " 的 破 事 。 
实际 上 这 里 即便 是 ISO C ， 本 义 也 是 清楚 的 。 但 是 就 会 出 来 这 种 带 比 问题 : 
这 是 一 道 精 妙 的 题目 还 是 一 道 傻 逼 题目 ? 
问题 出 自 : 大 型 互联 网 公司 为 什么 会 出 一 些 质量 低下 的 校 招 题目 ? 
http://pic4.zhimg.com/9dcOfadbb39515914415411f958a8cb7 b.jpg 
有 "我们 微软 ”的 RSDE vezh 称 : 


“但 是 就 截图 第 七 题 来 讲 ， 我 发 现 只 有 A 选 项 有 可 能 得 到 4， 其 余 三 个 选项 无 论 选取 哪 种 顺 
序 都 得 不 到 4， 很 属 。 这 是 一 道 精妙 的 题目 ， 不 叫 傻 逼 题目 。 你 们 不 要 看 见 





考 ++ 就 说 这 道 题 不 行 ，++ 唱 然 有 undefined behavior， 但 是 这 道 题目 的 考点 是 你 知 不 知 
道 undefined 





behavior 下 面 能 允许 的 东西 其 实 也 是 有 限 的 ， 懂 不 懂得 穷 举 他 们 。” 


这 几乎 是 常识 性 错误 。vczh 的 脸 自 然 (?) 已 经 被 回复 打 肿 了 (只 是 看 了 zhihu 的 尿 性 所 
以 全 文 按 合理 使 用 的 形式 引用 ， 粗 体 略 ) 


FrankHB talk C/C++ 


张 景 旺 ， 图 有 灵 的 机 器 上 ， 能 否 承 载 邱 奇 的 梦想 
呵呵 一 笑 百 媚 生 、 舒 夜 、 知 乎 用 户 SARA 


不 同意 你 们 的 说 法 ， 题 目 改 成 “可 能 为 4” 的 话 ， 那 么 4 个 答案 都 是 正确 答案 。undefined 
behavior 出 现 什么 结果 都 是 可 能 区 


题目 改 成 : 在 我 们 微软 的 编译 器 编译 之 下 ， 下 列 哪个 表达 式 的 结果 为 4 ? 就 是 精妙 的 题 


或 者 更 直接 一 点 : 

你 是 信 C 十 十 标准 ?还 是 信 VC 十 十 ? 

A : 信 V C+ 十 

B : 信 标 准 

C : 我 要 进 C 十 十 委员 会 ， 将 来 我 说 了 算 

D : 老子 编程 从 不 想 标 准 还 是 编译 器 啥 的 ， 生 成 可 执行 文件 就 是 成 功 .…… 


这 样 就 是 一 个 绝对 精妙 的 问题 了 ! 这 样 正确 答案 就 很 明显 了 ， 而 且 还 能 筛选 出 “我们 微 
软 " 想 要 的 人 才 ， 半 竟 这 三 d SERIO BD E Ea EIE. Terbi poe 要 保 
持 | 


引用 这 里 的 一 些 评论 。 首 先是 垂死 挣扎 : 
vezh 


显然 undefined behavior 是 有 范围 的 。 多 个 ++ 出 现 的 时 候 ， 标 准 说 得 很 清楚 ， 尽 管 ++ 发 
生 在 什么 时 候 不 知道 ， 但 是 有 多 少 次 ++ 就 加 多 少 次 1 是 肯定 的 。 因 此 就 算 你 写 a+++a++， 
a 也 不 可 和 人 能 从 0 变 成 3。 


2014-10-13 


思 ， 我 就 先 不 管 “ 标 准 说 得 很 清楚 "在 哪 了 一 一 虽然 其 实 这 就 是 就 这 个 例子 我 之 后 要 讨论 的 内 
容 。 


紧 接 着 被 直接 打 脸 : 
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薛 非 回复 vezh 

显然 undefined behavior 是 有 范围 的 。// 无 知 
2014-10-13 

Be 3F 回复 vezh 


多 个 ++ 出 现 的 时 候 ， 标 准 说 得 很 清楚 ， 尽 管 ++ 发 生 在 什么 时 候 不 知道 ， 但 是 有 多 少 次 
++ 就 加 多 少 次 1 是 肯定 的 。// 脐 测 


2014-10-13 
薛 非 
因此 就 算 你 写 a+++a++，a 也 不 可 能 从 0 变 成 3。/ 妄 断 
下 面 没 存在 感 的 附 议 略 。 
看 客 也 有 明白 人 ， 虽 然 引 用 的 论据 强度 不 够 : 
2014-10-13 
Jimmy shen 


In computer programming, undefined behavior refers to computer code whose behavior 
is specified to be arbitrary. It is a feature of some programming languages—most 
famously C and C++. 


这 次 轮子 哥 估 计 要 跪 了 。 坐 等 二 位 大 战 。 
2014-10-13 


不 过 稍微 有 一 个 需要 注意 一 点 的 《连续 三 个 评论 ,“ 知 乎 用 户 "应 该 是 两 个 人 ， 下 面 标记 为 
A 和 B) 
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知 乎 用 户 回复 薛 非 


我 觉得 您 的 IQ 可 能 需要 充值 了 ， 我 特意 去 翻 了 下 手头 的 2003 版 ISO， 如 果 是 C 或 C++ 的 
这 个 所 谓 的 undefined behavior 要 保证 不 与 前 面 的 运算 符 章节 冲突 ， 只 存在 两 种 可 


bea 


2014-10-22 
知 乎 用 户 回复 知 乎 用 户 
得 您 的 |Q 可 能 需要 充值 了 ， 你 根本 还 不 知道 什么 是 undefined behavior 
2014-10-25 
FAF 回复 知 乎 用 户 


undefined behavior 再 undefined 也 要 符合 标准 在 其 他 地 方 对 这 个 运算 的 限制 。 只 强调 一 
个 undefined 却 不 看 其 他 限制 条 件 ， 这 叫 玩 儿 文 字 游戏 。 


2014-10-26 


eel du Ss 《看 了 这 个 问题 我 正 再 次 考虑 他 是 不 是 有 资格 和 方 是 民 和 王朝 等 人 
相提并论 ) ， 然 而 最 后 一 点 需要 澄清 。 


ISO/IEC 14882:2003 


1.9/5 A conforming implementation executing a well-formed program shall produce the 
same observable behavior as one of the possible execution sequences of the 
corresponding instance of the abstract machine with the same program and the same 
input. However, if any such execution sequence contains an undefined operation, this 
International Standard places no requirement on the implementation executing that 
program with that input (not even with regard to operations preceding the first undefined 
operation). 


看 括号 里 的 。 好 了 ,“ 特 意 去 翻 了 下 手头 的 2003 版 ISO” 那 位 的 脸 已 经 肿 了 。 


虽然 上 面 没有 先 吐槽 翻 了 一 下 2003 版 的 ISO 如 何 得 出 C 的 结论 ， 不 过 翻 了 下 ISO C 的 确 是 
没有 那么 方便 打 脸 的 条 款 的 〈 当 然 ， 这 个 问题 的 结论 不 变 ) 。 


RE EA, MARSH ZSO C 打 脸 却 不 方便 ， 收 益 不够 ， 相 对 于 ISO C++ 来 说 
也 算是 个 黑 点 了 。 
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Created @ 2014-08-01 21:46 rev2 2014-08-01 22:14, rev3 2015-09-15, markdown @ 2015- 
09-15. 


0 不 识 时 务 的 妥协 


特别 地 ， 兼 容 (而 不 是 取代 ) C. 


1 类 型 系统 


设计 上 烂 得 最 广泛 的 毫 无 疑问 是 类 型 系统 一 一 特别 地 ， 缺 少 很 多 本 来 该 在 类 型 系统 内 的 东 
西 。 


1.1 基本 类 型 

基本 类 型 在 〈 所 谓 的 fundamental types) C 的 基础 〈 所 谓 的 basic types) 上 重 写 了 一 
有 微妙 的 不 同 (如 宽 宇 符 类 型 ) ， 但 换 汤 不 换 药 ， 缺 点 差不多 一 个 没 少 。 

1.2 标准 转换 

继承 了 C 的 低 质量 的 转换 : 


e integer promotion 
e array-to-pointer conversion 
e function-to-pointer conversion 


1.3 非 一 等 类 型 (first class types) 

继承 了 C 对 数组 和 男 数 类 型 的 差别 待遇 。 除 了 上 面 的 转换 ， 作 为 在 画 数 参数 和 返回 值 也 有 反 
直 党 的 限制 。 

1.4 动态 类 型 (dynamic types) 


添加 了 动态 类 型 却 支持 有 限 ， 实 际 上 摘出 了 ABI 的 坑 一 一 缺乏 公开 规范 ， 力 至 同一 个 体系 结 
构 和 操作 系统 的 二 进 制 代码 都 没 法 兼容 。 


题 外 话 ， 为 了 描述 规则 的 清晰 性 ISO C99 添加 了 有 效 类 型 (effective type), KERMA FA 
态 类 型 ， 不 过 没有 明确 的 运行 时 支持 。 这 反倒 不 影响 实现 。 


1.5 对 象 类 型 


1.5.1 语义 
和 C 一样 ， C++ 的 对 象 (object) HEH FIC 不 同 ， C++ 对 象 的 销毁 同时 可 能 通过 非 平 凡 
AT #4 ER (non-trivial destructor) 的 调用 而 具有 副作用 (side effect) 。 


但 事实 上 ， 要 求 存 储 和 要 求生 存 期 边界 引发 副作用 是 正 交 的 特性 。 C++ 显然 没 能 处 理 好 这 一 
点 : 为 什么 一 个 只 关心 析 构 副作用 的 对 象 仍然 必须 占据 存储 ? 


此 外 ， 类 类 型 是 对 象 类 型 。 不 使 用 特殊 规则 ， 基 类 或 数据 成 员 子 对 象 将 会 占据 存储 一 一 即便 
实际 上 没 用 到 。 因 此 语言 不 得 不 使 用 特别 规则 进行 空 基 类 优化 (empty base optimization) 一 一 
而 且 对 空 数据 成 员 的 位 置 还 有 限制 。 考 虑 到 许多 时 候 这 里 的 类 只 是 和 静态 类 型 系统 交互 ， 这 
种 宛 余 的 语义 本 应 是 毫 无 意义 的 。 


1.5.2 分 类 学 


C 的 对 象 类 型 包括 void ， 而 C++ 把 void 独立 出 来 。 但 是 ， 仍 然 有 一 些 容 易 混淆 之 处 : 
void* 是 object pointer type ， 但 不 是 pointer-to-object type 。 


1.5.3 布局 


添加 了 和 C 不 一 样 的 布局 ， 却 不 提供 足够 的 、 明 确 的 、 可 移植 的 支持 ， 导 致 基础 设施 的 失 
效 : 


e 如 offsetof 


ISO C++11 提供 了 标准 布局 类 (standard-/ayout class) 的 概念 ， 基 本 继承 于 之 前 的 POD(plain- 
old-data) class 。 然 而 这 个 概念 的 定义 在 之 后 版 本 的 标准 中 仍 有 微妙 的 变化 ， 并 不 容易 被 理 
解 。 


标准 布局 类 型 (standard-layout type) o 类 之 上 。 其 它 对 象 布局 就 没有 附 
加 约束 了 ， 如 果 需 要 可 移植 的 ABI| ， 几 乎 只 能 使 用 标准 布局 类 型 。 这 排除 了 许多 特性 ， 例 如 
具有 虚 函 数 而 不 满 ee eee 4 XX (polymorphic class) 。 


1.6 值 类 别 (value category) 和 引用 


添加 了 引用 类 型 ， 想 取代 lvalueness (参见 WG21 最 早 公 开 的 paper) ， 后 来 却 坑 了 。 


在 表达 式 求 值 的 特殊 规则 下 ， 引 用 类 型 的 表达 式 被 视 为 被 引用 的 实体 。 这 种 特殊 规则 减少 了 
那么 一 点 其 它 一 些 语言 规则 (如 ADL) 的 描述 ， 却 实际 上 使 引用 类 型 也 不 完全 是 一 等 实体 
了 。 


e 现在 还 越 搞 越 复 杂 ， 搞 出 了 多 种 引用 类 型 和 value category ， 依 然 不 视 为 类 型 
e 并 且 语 义 和 用 例 容易 被 误解 ， 且 很 多 时 候 难 以 避免 元 余 编 码 


7 添加 了 参数 化 多 态 2 RS 


却 对 高 阶 参数 化 类 型 (模板 模板 参数 ) 有 莫名 其 妙 的 限制 导致 不 可 用 。 


8 添加 了 实 实质 TA 质 上 的 参数 化 类 类 型 
却 独立 于 名 义 类 型 系统 (nominal type system) 之 外 。 
概念 (concept) 有 望 部 分 地 改善 这 点 ， 但 无 法 改变 基础 设计 分 裂 的 现状 。 


9 添加 了 类 型 推导 (type deduction) 


却 不 足够 支持 一 般 意义 的 类 型 推断 (type inference) 一 一 例如 在 构造 画 数 上 不 起 作用 ， 需 要 额 
外 的 工厂 方法 (factory method) 作为 惯用 法 。 


1.10 添加 了 实 实质 DL 质 上 的 重 写 系统 
却 没有 完善 的 类 型 系统 支持 ， 如 : 


e 基于 类 型 的 模式 匹配 
e 自 定 义 重 载 规则 


2 一 些 深刻 的 设计 失误 
是 差不多 所 有 Algol60 直 系 后 裔 都 存在 的 功能 缺失 。 


2.1 同 像 性 (isomorphism) 


这 导致 语言 中 不 得 不 对 反射 做 出 特别 对 待 。 偏 偏 到 现在 还 没有 。 


2.2 底层 高 级 流程 抽象 


具体 点 说 ， 能 代替 J operator 或 者 call/cc 之 类 的 东西 。 


这 同时 导致 诸如 coroutine 等 依赖 基本 控制 流 的 抽象 不 能 在 不 添加 语言 特性 的 前 提 下 被 可 移植 
地 高 效 实现 ; 同时 也 有 下 面 的 异常 问题 。 


2.3 活动 记录 抽象 
这 导致 典型 实现 及 其 用 户 过 于 依赖 特定 于 体系 结构 的 运行 时 栈 。 
实际 上 还 同时 有 栈 渝 出 UB 这 种 无 解 的 设 定 。 





题 
内 建 特性 在 兼容 性 和 扩展 性 上 尤其 容易 出 现 问题 ， 特 别 是 存在 不 够 显然 的 实现 的 时 候 。 


3.1 异常 不 | 某 种 意义 上 是 缺乏 上 述 两 者 的 


题 : 





。 例如 ABl 兼 容 一 个 体系 结构 和 操作 系统 的 同一 版 本 的 同一 个 实现 ， 使 用 不 同 不 同 
异常 模型 时 仍然 可 能 不 兼容 
e 再 如 WG21/N4049 





3.2 面向 对 象 支 持 一 一 关键 是 面向 对 象 本 身 就 没有 个 相对 统一 的 


认识 。 
e 内 建 导 致 之 后 扩充 多 分 派 等 需要 顾及 的 太 多 而 最 终 放 弃 ， 远 不 如 CLOS 之 类 的 库 解决 方 
RR 


。 同样 在 一 些 方面 导致 和 加 重 了 ABI 问 题 


4 阶段 (phase) 相关 
某 种 意义 上 是 缺乏 同 像 性 的 副作用 。 
ISO C++ 规定 的 实现 阶段 数量 过 多 ， 且 过 于 琐碎 。 


这 导致 细节 难以 处 理 ， 也 难以 提高 实现 质量 。 


4.1 预 处 理 被 标准 化 ， 但 是 细节 比较 混乱 ， 导 致 了 很 多 演进 上 的 
问题 。 


e (R sifdef 和 sif defined 的 宛 余 


4.2 缺少 可 用 的 模块 系统 


ISO C++17 似乎 不 能 保证 引入 .…… 

4.3 存在 语言 链接 文 持 却 缺乏 可 移植 的 语言 散人 。 
只 有 一 个 asm 还 不 指望 能 用 。 

5 至 于 文法 /语法 嘛 ..……... 


本 来 懒得 说 ， 不 过 因为 逗 到 一 定 境界 也 顺便 提 一 下 好 了 。 


5.1 兼容 CMBR HRB IK 


特别 地 ， C++11 引入 trailing-return-type 后 也 没 法 放弃 旧 的 语法 ， 并 存 的 结果 是 增加 复杂 
性 。 


2 比 C 更 多 的 文法 歧义 
最 著名 的 坑 应 该 就 是 画 数 声明 优先 于 初始 化 对 象 了 。 另 外 还 有 几 个 类 似 的 地 方 。 


5.3 标点 问题 

因为 基本 源 字 符 集 的 限制 ， 使 用 大 于 ( < ) 和 小 于 ( > ) 的 尖 括 号 (angle brackets) 代替 了 数学 
上 习惯 的 看 起 来 更 局 一 点 的 括号 (chevrons)“ CH) "。 这 导致 了 极 大 的 解析 上 的 复 杀 性 ， 同 
时 还 需要 增设 特例 规则 (记号 > 和 记号 序列 > > Hr). 

5.4 少数 C 的 语法 的 不 规则 延伸 

如 new 表达 式 。 


除了 单独 的 消 歧义 规则 的 复杂 性 外 ， 特 异 的 语法 规则 导致 用 宏 蔡 换 实现 一 些 操 作 更 困难 ， 也 
导致 语言 规范 的 复杂 (有 多 少 人 能 分 清 type-id 和 new-type-id IE) 。 
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本 文 主要 是 写 给 自信 知道 指针 "是 什么 玩意 儿 的 读者 看 的 。 最 好 看 完 再 评论 。 (我 大 致 上 
能 确定 99% 以 上 的 并 没有 足够 重视 这 里 的 坑 ， 不 够 了 解 现实 。) 


Dll 


不 知道 指针 是 哈 的 虽然 看 了 基本 是 浪费 时 间 ， 不 过 至 少 务必 记 住 : 不 是 所 有 叫 “ 指 针 " 的 东 
西 都 是 一 回 事 。 


t 
1 什么 是 指针 
本 文 所 谓 的 指针 (pointer) ， 是 指 C 和 C++ 等 语言 中 的 内 建 的 语言 特性 。 


在 不 同 范畴 中 指针 这 个 概念 有 所 不 同 。 在 体系 结构 规范 中 ， 指 针 指称 特定 的 整数 字 节 地 
址 或 者 两 个 地 址 的 差 (地 址 偏 移 量 ) ， 是 整数 数值 ; 而 在 C 和 C++ 中 ， 作 为 核心 语言 特性 支持 
的 指针 是 一 类 类 型 的 统称 。 这 两 种 完全 不 同 的 概念 经 常 被 混淆 ， 造 成 一 些 稀里糊涂 的 问题 
《和 数组 混在 一 起 的 时 候 尤 甚 ) 。 除 非 另 行 说 明 ， 本 文 总 是 指 后 者 ， 并 不 对 此 进一步 展开 论 


述 。 


C 和 C++ 中 ， 指 针 (A) 值 是 具有 指针 类 型 的 (A) 值 。 指 针 值 有 时 也 会 被 和 指针 混淆 ， 
但 在 健全 的 理解 下 通常 能 消 歧 义 ， 因 此 问题 不 大 (数组 也 有 类 似 的 情况 ， 但 涉及 转换 ， 问 题 
相对 严重 ) 。 为 清晰 起 见 ， 在 这 里 不 会 不 加 区 分 地 使 用 。 

注意 ，C++ 的 成 员 指 针 (pointer-to-member) 明确 地 不 是 指针 。 尽 管 它 的 数值 表示 在 一 些 
情况 下 可 能 被 实现 为 地 址 的 偏 移 量 ， 但 语言 中 并 不 存在 这 种 保证 ， 实 际 也 通常 不 那么 简单 。 
重复 : 成 员 指 针 不 是 这 里 讨论 的 指针 。 

此 外 ，C++ 中 ， 除 了 作为 语言 特性 支持 的 内 建 (builtin) 指针 ， 也 有 所 谓 的 智能 指针 (smart 


pointer) 。 后 者 在 概念 上 也 被 ISO C++11 以 来 的 标准 库 正 式 支 持 。 这 里 讨论 的 指针 不 包括 这 
些 智能 指针 ， 尽 管 后 者 和 主题 相关 ， 并 且 会 在 下 文 重点 讨论 。 


2 什么 是 设计 


这 里 讨论 的 设计 ， 是 指 语言 的 设计 ， 也 就 是 语言 规则 的 作者 决定 语言 特性 中 应 该 存在 什 
么 和 不 存在 什么 的 决策 之 下 的 抽象 结果 。 


用 户 如 何 使 用 指针 即 语 用 问题 是 和 本 文 主题 相关 的 问题 ， 会 一 并 讨论 ， 但 和 这 里 的 设计 
是 两 个 不 同 的 话题 。 


3 HAE 


糟糕 是 一 个 形容 词 。 


形容 设计 的 糟糕 从 两 个 递 进 的 视点 得 出 : 对 照 设 计 要 解决 的 问题 ， 即 需求 ; 对 照 同 类 解 
决 方案 ， 即 语言 中 的 其 它 特性 或 应 用 领域 有 交集 的 其 它 程序 设计 语言 中 的 特性 。 


通俗 地 ， 粳 糕 以 “不 好 用 ”和 "并 非 不 得 不 好 用 "来 表现 。 


注意 因为 语言 规则 之 间 的 相互 作用 ， 是 否 " 好 用 "或 者 说 要 解决 的 问题 ， 须 结合 使 用 场景 下 
的 其 它 问题 一 并 讨论 : 一 项 特性 即便 能 很 好 地 解决 某 些 问题 ， 但 各 几乎 总 是 引起 其 它 难 以 回 
避 的 问题 ， 那 么 至 少 是 “不 够 好 用 ”的 ; 而 要 造成 的 问题 麻烦 到 一 定 程度 时 就 显然 “不 好 用 ”了 。 


4 指针 有 什么 用 


在 说 明 不 好 用 之 前 ， 首 先 需要 了 解 有 什么 用 。 
这 是 一 个 发 散 的 语 用 问题 ， 但 大 多 数 用 法 都 很 浅显 ， 清 楚 语 言 规则 就 并 不 难为 纳 。 


4.1 指针 和 地 址 


C/C++ 的 指针 值 和 体系 结构 中 的 所 说 的 指针 (地址 或 地 址 偏 移 量 ) 的 基本 作用 类 似 ， 它 
用 来 指示 数据 存储 的 位 置 。 


以 体系 结构 的 接口 实现 C/C++ ， 可 以 轻易 保证 相同 类 型 的 指针 值 到 地 址 的 映射 是 单 射 ， 
即 相同 指针 类 型 的 指针 值 的 不 同 的 数值 表示 可 以 总 是 找到 不 同 的 地 址 对应， 这样 就 可 以 在 整 
数 算术 和 关系 操作 的 基础 上 之 无 额外 代价 地 定义 指针 算术 和 关系 操作 ; 而 指针 上 的 操作 符 * 
抽象 的 正 是 间接 寻 址 操作 。 这 就 是 一 些 用 户口 中 的 所 谓 " 接 近 底 层 "。 这 种 简单 直接 实现 的 最 大 
好 处 就 是 容易 以 非常 小 的 代价 生成 针对 特定 体系 结构 的 代码 。 


一 个 需要 注意 的 关键 不 同 点 在 于 ， C/C++ 作为 强 类 型 语言 (这 里 的 用 法 也 比较 乱 ， 指 的 
是 原本 意义 一 一 默认 具有 静态 类 型 检查 ) ， 其 中 的 值 (value) 脱离 类 型 讨论 并 没有 意义 ， 指 针 
值 也 不 例外 。 对 象 指针 可 以 进行 算术 操作 ， 但 和 整数 地 址 算术 的 含义 并 不 相同 ， 这 受到 具体 
指针 类 型 的 影响 例如 ， T* 和 整数 的 + 操作 和 sizeof(T) 相关 ; 而 函数 指针 并 没有 类 
似 的 意义 。 此 外 ， 需 要 不 同 间接 操作 层次 的 值 如 T* 和 T** 也 可 被 明确 地 静态 地 区 分 ， 光 
靠 地 址 并 不 能 做 到 这 点 。 





然而 ， 因 为 体系 结构 〈 硬 件 ) 实现 的 惯例 ， 这 个 差异 在 往往 能 被 利用 (典型 地 ， 基 址 变 
址 寻 址 ) ， 生 成 相对 高 效 的 代码 。 这 是 语言 中 保留 指针 算术 的 用 途 之 一 。 另 一 方面 ， 把 地 址 
相关 的 整数 数值 明确 和 一 般 的 整数 值 区 分 ， 也 明确 了 目的 ， 使 静态 检查 非 预期 的 混用 成 为 可 
能 ， 有 限 地 提供 了 类 型 安全 性 〈 例 如， 指针 和 指针 不 能 相 加 ) 。 


通过 两 个 地 址 ， 或 一 个 地 址 和 表示 字 节 大 小 的 一 个 非 负 整数 就 可 以 标识 出 地 址 空间 的 区 
间 范 围 。 把 地 址 蔡 换 为 对 象 指针 、 字 节 大 小 替换 为 长 度 (指针 值 指向 的 连续 元 素 的 个 数 ) 同 
时 限制 取得 指针 的 手段 ， 能 保留 这 种 标记 连续 存储 区 域 的 功效 ， 同 时 提供 一 定 的 可 移植 性 。 
这 种 连续 的 存储 在 类 型 系统 上 被 抽象 为 数组 。 不 过 应 当 注 意 ， 在 可 移植 的 要 求 下 ， 实 际 上 指 
针 的 语义 依赖 于 数组 。 完 全 绕 过 数组 的 存在 任意 地 构造 一 个 指针 值 不 能 保证 指向 有 效 的 对 象 
或 画 数 ， 进 行 间接 操作 基本 上 总 会 导致 未 定义 行为 。 


另 一 个 关键 不 同 是 空 指针 值 (null pointer value) 并 不 保证 有 特定 的 地 址 对 应 ， 见 下 文 。 


4.2 存储 资源 管理 


因为 一 个 对 象 指针 和 长 度 可 以 用 于 表示 连续 的 内 存 ， 而 对 象 (排除 VLA ) 的 大 小 能 在 翻 
译 时 静态 确定 ， 所 以 在 已 知 大 小 的 存储 区 域 可 以 用 一 个 对 象 指针 值 直接 表示 。 


ISO C 标准 库 的 malloc 和 calloc 以 及 1SO C++ 标准 库 的 ::operator new 和 
: :operator new[] 等 的 返回 值 是 典型 的 实例 。 


这 里 大 小 是 由 存储 分 配 另 外 保存 ， 这 样 释放 时 仍然 只 需要 传递 一 个 指针 值 即 可 。ISO 
C++14 提 供 了 sized deallocation ， 不 过 这 并 非 强 制 。 


4.3 参数 传递 


因为 从 分 配 函 数 中 取得 的 指针 表示 的 存储 并 不 会 如 自动 变量 一 样 会 被 自动 回收 ， 同 时 指 
针 有 间接 操作 ， 而 指针 值 作为 对 象 类 型 的 值 可 以 作为 参数 传递 ， 因 此 传递 指向 对 象 的 指针 值 
配合 间接 操作 就 可 以 模拟 传递 对 象 的 引用 。 


4.4 基于 存储 的 和 迭代 

因为 对 象 指针 能 表示 存储 位 置 ， 连 续 存储 的 布局 由 存储 模型 (以 及 基于 数组 的 语义 ) M 
则 限定 ， 适 当 类 型 的 指针 值 进行 算术 操作 可 以 双向 顺序 迭代 乃至 随机 访问 连续 存储 的 对 象 
4.5 空 指针 值 


指针 类 型 是 可 空 类 型 (nullable) 类 型 ， 约 定 特殊 的 空 指 针 值 表示 不 指向 任何 对 象 或 函数 ， 
但 可 以 进行 有 限 的 比较 。 


可 空 类 型 很 容易 用 来 表示 可 选 (optional) 值 : 约定 空 指针 表示 值 不 存在 ， 非 空 指针 指向 的 
对 象 或 函数 即 存 在 的 可 选 值 。 


空 指针 值 还 可 以 表示 哈 位 (sentinal) 即 迭 代 终 止 的 标识 。 相 对 于 具体 存储 区 间 结 束 的 指针 
相 比 ， 空 指针 值 是 通用 的 ， 并 不 需要 根据 特定 的 区 间 使 用 不 同 的 值 。 


注意 空 指针 值 的 存储 表示 不 一 定 是 整数 需 值 (这 再 次 体现 了 人 为 预选 的 数值 和 地 址 的 无 
关 性 ) ， 尽 管 使 用 需 值 一 般 能 有 更 好 的 初始 化 性 能 。 


5 指针 为 什么 不 好 用 


既然 标题 已 经 确定 了 指针 设计 的 糟糕 ， 那 么 在 “不 好 用 ”上 自然 有 充分 的 理由 。 

总 结 就 是 ， 指 针 看 上 去 能 干 很 多 事 ， 但 没 一 样 事 是 完全 干 好 的 ， 还 有 的 事 (比如 声明 语 
ik) 其 至 在 一 般 意 义 上 就 特别 差 。 

讽刺 的 是 ， 第 一 个 大 规模 使 用 这 种 指针 的 C 语言 作为 UNIX 系 统 的 实现 却 完全 违反 了 
UNIX 程序 鼓吹 的 模块 化 设计 哲学 : 只 做 一 件 事 ， 并 且 把 事 做 好 。 


为 什么 “程序 "应 当 遵 守 的 原则 ， 分 解 到 实现 语言 的 特性 的 层次 上 ， 就 可 以 周 顾 设 计 原 则 乃 
至 表现 得 相反 了 呢 ? 难道 这 里 不 更 应 该 体现 接口 的 可 组 合 性 吗 ? 耐人寻味 。 


5.1 使 用 的 意图 


首要 的 原罪 就 是 指针 能 干 太 多 事 了 ， 导 致 如 果 只 需要 其 中 的 某 些 功能 子 集 (几乎 所 有 情 
况 都 是 这 样 ， 实 际 上 也 不 可 能 全 用 上 ， 见 下 文 ) 就 不 容易 看 清楚 代码 在 做 什么 ， 也 就 是 任 
何 正 常 " 的 使 用 与 使 用 其 它 蔡 代 实现 手段 相 比 ， 都 很 容易 明显 损害 代码 的 可 读 性 。 


要 避免 这 点 ， 要 么 放弃 使 用 指针 而 使 用 其 它 蔡 代 ， 要 么 就 不 得 不 以 文档 〈 包 括 注 释 ) 等 
形式 来 把 这 些 接口 规格 中 大 多 不 必 出 现 的 琐碎 细节 约定 清楚 。 后 者 很 容易 显著 增 大 实现 和 维 
护 的 工作 量 。 


5.2 D% 

因为 意图 不 明 的 关系 ， 使 用 指针 的 代码 比 使 用 其 它 更 清晰 的 蔡 代 的 代码 更 有 机 会 错误 ， 
而 指针 本 身 的 静态 类 型 检查 对 此 爱 莫 能 助 。 

最 显著 和 严重 的 错误 可 能 是 对 于 存储 资源 管理 的 错误 。 

注意 C/C++ 语 言 要 求 去 配 画 数 的 指针 值 参数 若非 空 ， 则 必须 和 适当 的 分 配 画 数 的 返回 ( 指 
H) 值 相等 且 不 能 以 相同 的 值 调 用 去 配 酌 数 超过 一 次 ， 否 则 程序 行为 未 定义 。 

因为 指针 值 并 不 保证 翻译 时 确定 ， 静 态 检查 对 此 类 误 用 效果 很 有 限 ， 要 想 安 全 使 用 且 不 
泄露 资源 ， 用 户 必 须 清楚 使 用 的 指针 是 否 可 以 被 释放 ， 然 后 准确 保证 从 分 配 函 数 得 到 的 非 空 


指针 值 恰好 作为 参数 调用 正确 的 对 应 的 去 配 函 数 一 次 一 一 这 里 是 否 可 以 释放 的 所 有 权 
(ownership) 信息 并 没有 编码 在 指针 的 类 型 之 中 。 





注意 ， 单 看 一 个 指针 值 ， 有 或 者 没有 所 有 权 是 确定 的 ， 不 存在 第 三 种 状况 。 鉴 于 这 两 种 
状况 互 斥 ， 因 此 一 个 指针 值 不 可 能 同时 是 表示 存在 所 有 权 的 资源 指针 和 表示 不 存在 所 有 权 的 
资源 视图 /观察 者 指针 。 这 也 就 是 上 文 说 “不 可 能 全 用 上 "的 原因 。 


然而 事实 是 明确 持 有 一 个 有 所 有 权 的 指针 ， 需 要 释放 时 ， 光 看 指针 根本 没 法 知道 该 使 用 
哪个 去 配 事 数 .…... 更 有 其 者 ， 其 实 光 从 指针 上 根本 就 看 不 出 有 没有 所 有 权 。 


如 果 一 个 返回 指针 值 的 函数 不 幸 没 有 文档 描述 清楚 用 户 该 如 何 处 理 资 源 释放 问题 ， 就 面 
临 了 两 难 的 风险 : 调用 错误 的 去 配 函 数 或 重复 释放 导致 未 定义 行为 ， 或 者 放置 不 管 而 至 少 产 
生 泄漏 的 后 果 。 

可 能 就 是 因为 这 样 ，WG14 (C 标准 委员 会 ) 有 一 条 不 成 文 的 规矩 : 返回 指针 的 函数 总 
是 不 带 所 有 权 一 一 也 就 是 用 户 不 应 该 释放 这 里 的 资源 。 

然而 就 连 Austin Group (起 草 POSIX 标准 的 作者 ) 对 此 都 并 不 买账 (更 别提 GNU 等 
T) ， 造 成 了 接口 设计 上 的 冲突 ( 详 见 WG14/N1174 ) ， 可 见 这 条 默许 的 规则 在 C 用 户 的 范 
畴 内 整体 上 行 不 通 。 


用 户 该 何去何从 ? 看 脸 .…… (没有 接口 文档 的 自己 躁 坑 怎么 死 ?看 着 办 。) 


5.3 不 必要 的 负担 
这 里 最 明显 的 例子 是 明明 静态 确定 在 不 需要 空 指针 的 情况 下 不 得 不 判断 指针 值 是 否 关 
空 ， 给 程序 运行 带 来 不 必要 的 开销 。 


所 谓 的 " 空 指针 "小 和 勇于 C.A.R.Hoare 在 1960 年 代 的 ALGOL W 语言 的 发 明 。2009 年 ， 
Hoare 在 一 个 会 议 上 为 此 道 和 次， 原因 是 空 指针 特性 引发 了 很 多 程序 设计 中 的 错误 和 漏洞 。 

盲目 省 略 空 指针 值 检查 的 导致 使 用 指针 间接 操作 的 值 引 起 未 定 行为 的 错误 威力 并 不 比 上 
面 资 源 管理 的 错误 来 得 小 。 因 此 一 旦 接口 沾染 了 指针 ， 事 情 就 复杂 了 最 容易 的 修复 就 是 
放弃 使 用 指针 这 样 的 可 空 类 型 。 





5.4 语法 噪音 
上 面 说 的 都 是 语义 直接 相关 的 语 用 困难 。 


事实 上 ， 即 便 不 考虑 语义 问题 ， 经 验 表 明光 是 C/C++ 的 指针 语法 (严格 来 说 不 光 是 指针 
自己 的 问题 ， 还 有 数组 、 C++ 的 引用 和 C++/CLI 的 句柄 等 ， 都 属于 此 类 ) 也 相当 反 直 觉 了 。 
大 部 分 用 户 遇 到 艇 套 的 指针 声明 符 甚 至 都 不 能 一 下 子 看 明白 边界 ， 更 别 说 表示 什么 意思 了 。 


对 这 个 问题 的 主要 变通 是 使 用 typedef 。 但 未 必 每 个 接口 都 会 老实 用 一 一 比如 ISO C 的 
signal 图 数 就 没有 用 。 所 以 遇 到 了 用 户 还 是 要 硬 着 头皮 看 。 另 外 还 可 能 有 同时 有 使 用 
typedef 和 不 使 用 typedef 名 称 并 存 然而 两 者 等 价 的 局 面 ， 此 时 用 户 就 得 当 人 肉 编译 器 自行 
验证 typedef 和 复杂 声明 符 的 等 价 性 了 ..……… 


而 现代 的 编译 器 也 没 能 利用 这 样 的 语法 带 来 简化 。 

鉴于 这 种 看 起 来 精巧 实则 无 用 的 设计 带 来 的 困难 ，Bjarne Stroustrup 等 在 C++ 尝试 引入 
更 直 白 的 语法 。 但 是 ， 虽然 trailing-return-type syntax 是 引入 到 ISO C++11 8 T, ŽB 
C 却 不 能 排除 旧 的 语法 ， 结 果 就 是 对 用 户 来 说 存在 两 套 不 完全 兼容 语法 要 学 ， 编 译 器 也 得 把 
两 套 语 法 都 实现 这 样 一 个 混乱 局 面 .…… 
5.5 语义 噪音 

同样 因为 意图 不 明 的 关系 ， 要 让 不 同 用 法 之 间 存 在 差异 变 得 困难 了 。 


举例 来 说 ， C++ 不 需要 内 建 指针 模拟 对 象 引用 传递 参数 ， 所 以 看 到 -> 和 一 元 操作 
* 《〈 重 载 另 说 ， 但 不 抽风 的 重 载 不 应 该 和 这 里 的 清晰 性 背道而驰 ) 就 可 以 大 致 确定 此 处 进行 
的 是 非 平 凡 〈 模 拟 参数 传递 ) 的 操作 。 


考虑 到 模拟 引用 参数 也 必然 不 需要 空 指针 值 ， 这 样 一 来 差距 更 明显 。 


5.6 抽象 的 无 能 


或 许 抽 象 能 力 的 缺失 才 是 最 大 的 现实 问题 ， 因 为 关 平 高 级 语言 的 本 质 目的 ， 而 并 非特 定 
的 个 别 需求 。 

一 个 例子 是 ， 连 代 存 储 连续 的 序列 用 算术 操作 ， 为 什么 同 祥 是 迭代 ， 和 链表 就 不 能 类 似 的 
语法 呢 ? 


不 过 只 是 “不 好 用 ”的 角度 并 不 容易 集中 体现 这 一 点 ， 此 处 先 略 过 。 
5.7 互 操作 性 


和 体系 结构 的 交互 或 许 是 指针 唯一 合适 的 领域 了 。 不 过 ， 这 依赖 于 实现 的 假设 ， 因 此 操 
作 起 来 并 不 那么 有 普 适 性 。 

即便 平时 鼓吹 “硬件 友好 ”接近 底层 ”， 事 实 上 C 就 不 存在 对 地 址 空间 的 抽象 ， 还 得 靠 厂 商 
或 者 WG14/N1169 这 类 几乎 名 不 见 经 传 的 扩展 。 


倒是 C++ 标准 库 的 分 配器 机 制 本 来 有 要 支持 上 面 扩 展 的 考虑 不 同 的 指针 ， 哩 然后 来 都 流 
行 平坦 地 址 空间 然后 这 个 需求 就 死 得 差不多 了 .…… 


一 个 根本 硬 伤 是 ， 相 同类 型 指针 值 到 地 址 的 映射 是 单 射 而 不 是 满 射 一 也 就 是 任意 一 个 
地 址 即便 在 体系 结构 和 实际 机 器 的 环境 下 允许， 也 有 重重 限制 ， 根 本 不 保证 能 用 能 自由 操作 
的 指针 表示 。 


这 样 ， 关 键 时 刻 到 诡 还 得 上 体系 结构 相关 的 扩展 乃至 汇编 和 /或 机 器 语言 .….… (什么 硬件 
友好 接近 底层 ， 见 鬼 去 吧 (J oy Ll!) 














5.8 理解 的 混乱 


事实 证 明 ， 指 针 自身 的 微妙 规则 以 及 和 数组 之 间 看 似 说 不 清道 不 明 的 关系 给 教材 编写 者 
以 及 初学 者 带 来 了 极 大 麻烦 。 


不 管 是 Bjarne Stroustrup 鼓吹 的 teachability 还 是 一 般 用 户 期 待 的 “ 易 用 性 ”， 指 针 的 语法 
和 语义 规则 都 是 重 灾区 。 


总 体 来 看 ， 这 种 的 问题 的 根源 来 源 于 指针 这 项 语言 特性 自身 的 设计 一 一 包括 是 不 是 真 的 


适合 作为 核心 语言 特性 这 点 。 





5.9 谁 来 承担 责任 

可 笑 的 是 ， 缺 陷 这 样 明显 的 语言 特性 ， 一 边 在 被 各 种 集中 地 小 用 和 误 用 ， 一 边 被 井 底 之 
ERE H“ C 的 有 灵魂" 骗 更 多 不 知情 者 上 当 ..….. 

容忍 这 样 的 缺 吻 和 制造 混乱 代码 的 作者 通常 是 同一 技 用 户 。 对 于 不 良 语 用 导致 的 后 果 却 


往往 由 合作 的 理解 更 透彻 的 维护 者 承担 ， 把 本 可 以 满足 更 多 现实 需求 的 时 间 花 在 给 脑残 粉 的 
烂 代 码 擦 屁股 的 破 事 上 。 


这 是 有 多 不 公平 呢 ? 


6 “指针 ”必须 这 样 不 好 用 吗 / 不 用 指针 用 哈 


如 果 不 限于 内 建 指针 ， 答 案 是 否定 的 。 


是 
从 指针 几 个 有 用 和 常用 的 使 用 惯例 来 看 ， 搞 清楚 真实 需求 之 后 ， 很 容易 设计 出 更 安全 好 
用 的 机 制 。 当 然 ， 得 有 足够 的 其 它 核心 语言 特性 支持 ， 类 型 系统 赢 弱 的 C 只 能 靠边 站 。 


对 这 里 的 缺陷 修正 得 比较 彻底 而 又 比较 流行 的 例子 主要 就 是 C++ ， 同 时 C++ 也 保留 了 指 
针 的 操作 ， 反 而 更 有 必要 澄清 什么 时 候 不 适合 用 指针 。 所 以 以 下 以 C++ 为 例 (涉及 的 主要 特 
性 ， 其 它 现代 语言 ， 即 便 没有 指针 也 大 多 有 对 应 ) 。 


6.1 了 解 晶 图、 避免 前 见 错误 和 提升 可 读 性 


若 需要 间接 操作 表示 资源 ， 使 用 带 所 有 权 的 智能 指针 。 同 时 可 以 自动 管理 资源 ， 避 免 资 
源 泄漏 。 不 加 封装 地 使 用 内 建 指针 意味 着 更 混乱 的 代码 路 径 ， 通 常 是 糟糕 的 代码 。 


若 需 要 间接 操作 表示 不 带 所 有 权 的 资源 视图 ， 使 用 不 带 所 有 权 的 特定 指针 类 型 ， 如 
WG21/N4282 提议 的 observer ptr 来 帮助 表明 意图 。 (这 里 使 用 内 建 指针 的 问题 相对 上 比较 
小 ， 在 没有 其 它 选择 的 偷懒 情况 下 ， 使 用 内 建 指针 相对 来 说 能 够 被 容忍 ， 因 为 带 有 所 有 权 的 
指针 已 经 被 其 它 智 能 指针 区 分 出 去 了 。 ) 


若 需要 传递 引用 ， 直 接 使 用 内 建 引用 。 在 需要 复制 引用 的 场合 ， 使 用 std::ref 之 类 的 
包装 。 内 建 指 针 在 此 本 质 上 毫 无 必要 ， 并 且 无 法 使 用 大 部 分 其 它 设 施 (只 有 std::bind 等 一 
些 少数 例外 ) 。 


若 需 要 可 空 类 型 ， 使 用 WG21/N4480 等 规范 的 optional 类 型 。 (内 建 指 针 仍 然 是 个 可 
以 忍耐 的 替代 ， 但 并 不 推荐 。) 


若 需 要 迭代 操作 ， 使 用 迭代 器 (iterator) 。 和 迭代 器 同时 有 更 好 的 类 型 安全 性 、 适 应 性 和 可 
扩展 性 。 指 针 作 为 随机 访问 迭代 器 的 特例 是 可 以 被 使 用 的 ， 但 仍然 点 当 小 心 行 事 。 


通过 划分 典型 应用 场景 ， 就 基本 解决 了 上 面 的 最 麻烦 的 一 些 问题 。 除 了 静态 区 分 存在 和 
不 存在 所 有 权 相 互 矛盾 之 外 ， 以 上 类 型 也 是 可 以 组 合 的 ， 因 此 同时 需要 多 种 意图 也 不 需要 使 
用 内 建 指针 。 


6.2 抽象 能 力 和 可 扩展 性 
这 集中 体现 在 智能 指针 和 和 迭代 器 与 内 建 指针 的 对 比 之 上 。 


内 建 指针 的 语义 基本 是 被 核心 语言 规则 写 死 的 ， 它 并 不 能 实现 智能 指针 这 样 用 户 自 定义 
资源 所 有 权 管 理 策略 ， 以 及 迭代 器 这 样 的 适 配 于 不 同 实现 构造 的 序列 上 。 因 为 过 于 特殊 ， 可 
以 说 是 相当 地 无 能 。 高 下 立 判 。 


通过 和 迭代 器 类 别 (iterator category) 的 抽象 层次 和 tag dispatching 这 样 基于 重 载 (说 穿 
了 ， 一 种 模式 匹配 ) 的 技巧 ， 还 能 实现 对 不 同性 质 的 序列 静态 自动 选取 最 优 算法 。 不 知 比 指 
针 高 了 哪里 去 了 。 


当然 ， 内 建 指针 和 典型 体系 结构 实现 之 间 的 能 力 仍 旧 没 有 被 取代 。 但 指针 在 真正 底层 
(比如 说 ， 地 址 空间 ) 的 抽象 仍然 一 直 是 个 坑 。 而 且 这 明显 不 是 高 级 语言 的 本 职工 作 。 如 果 
不 是 照顾 兼容 性 ， 让 厂商 实现 成 扩展 并 用 标准 库 包 装 ， 说 不 定 还 不 会 像 现 在 那么 混乱 。 


6.3 约束 更 强 的 设计 


(现代 ) C++ 是 强烈 强调 静态 类 型 存在 感 的 语言 。 这 种 设计 有 利 有 弊 ， 但 从 实践 效果 来 
看 ， 正 确 地 使 用 能 够 发 挥 静态 类 型 检查 的 优势 ， 是 当代 软件 工程 实践 的 重要 趋势 之 一 。 ( 静 
态 类 型 当然 有 非常 鸡肋 的 地 方 然 而 现实 是 大 部 分 用 户 根本 连 边 都 碰 不 到 ..….... 注 意 缺乏 元 数据 
是 C++ 和 标准 化 的 锅 ， 不 是 静态 类 型 的 锅 。) 


但 是 C++ 限于 历史 包容 RAC. RAMESH) ， 即 便 比 ISO C 敢于 思 手 扔 包 
宙 ， 也 得 考虑 一 下 现实 影响 。 在 这 个 意义 上 ， 用 户 相 对 较 少 的 小 众 语言 以 及 新 设计 的 语言 就 
没有 那么 多 顾虑 ， 能 将 有 目的 的 设计 刻意 发 挥 得 更 充分 。 


举 两 个 稍微 不 怎么 小 众 的 例子 。 


一 个 是 Haskell 。 应 该 说 重点 不 纯粹 是 静态 类 型 的 问题 ， 而 是 在 类 型 系统 的 设计 上 使 用 了 
对 静态 分 析 友 好 的 较为 系统 化 的 设计 。 (而 并 不 是 像 C++ 那样 一 小 坨 一 小 坨 地 加 特性 ， 而 这 
里 最 大 坨 的 Concept 被 否 了 .…… ) 


当然 这 货主 要 用 于 开眼 和 拓展 想象 力 ， 因 为 默认 求 值 策略 过 于 标新立异 实际 上 不 适合 通 
用 的 需求 ， 在 DSL 以 上 的 实用 还 是 算 了 。 


另 一 个 是 Rust. 8, iitMW—-TFEBSA REM C/C++ ， 应 该 还 算是 比较 现实 (7) 
的 。 在 这 里 值得 一 提 的 是 有 不 少 设计 把 上 面 的 策略 整合 到 核心 语言 特性 上 去 了 并 且 有 系统 的 
理论 支撑 ， 上 比如 linear typing 是 对 C++ 的 std::unique_ptr 强化 。 


姑且 不 论 大 条 烩 的 实用 程度 ， 这 在 科普 上 比较 有 意义 。 


6.4 复 杀 性 谁 来 买单 
有 的 用 户 可 能 会 说 ， 这 么 复杂 ， 还 是 用 内 建 指 针 直 接 偷 懒 算 了 。 


对 此 我 只 能 表示 呵呵。 你 真有 自觉 到 完全 写 清楚 各 个 层次 的 接口 文档 表明 话 
意 ， 各 个 层次 ， 包 括 现在 当成 实现 细节 而 将 来 可 a ee HER 
任意 层次 的 “接口 ”。 


如 果 : 








(1) 因 为 非 自身 原因 只 能 用 C 这 等 无 能 玩意 儿 的 而 且 真 做 得 到 及 说 服 了 其 它 倒 腾 这 坨 代码 
B3 (GORA) 也 同样 做 到 上 面 所 说 的 自觉 ， 或 者 一 一 


(2) 保 证 这 坨 代码 不 流入 公众 视野 充实 反面 教材 ， 同 时 实现 者 保证 必要 时 时 刻 性 悔 生 产 垃 
圾 多 出 来 的 碳 排放 


那么 当 我 没 说 。 
否则 ...... 思想 有 多 远 就 给 我 滚 多 远 。 


Siga d E esce wid 都 敢 倒 腾 “ 底 层 "语言 了 ， 了 解 基本 需求 和 解 
决 方案 这 人 么 点 简单 的 份 内 之 事 都 做 不 好 还 有 脸 生产 垃圾 污染 环境 让 人 擦 屁股 来 添乱 ? 


还 是 有 谁 逼 你 用 这 坨 容易 炸 的 东西 了 ? (不 懂 适 应 现实 ?那么 俄 死 活该 。) 


注意 ， 业 界 从 来 不 缺 猪 队友 ， 少 一 头 的 确 照 样 转 〈 蠢 代码 照样 蠢 ) 。 
7 结语 


语 用 和 科普 


[科普 ][FAQ]MinGW vs MinGW-W64K Ee 
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部 分 参照 各 记录 原文 。 
试 试问 答 体 。 首 先 得 绕 个 远 路 ， 从 Win32 开始 说 起 ， 否 则 之 后 容易 乱 .….…… 


什么 是 Win32 ? 


Mii, 32 自然 是 指 32 位 了 7 不 一 定 。 


正式 地 说 ， Win32 主要 是 指 跑 在 Windows NT 内 核 上 的 Win32 子 系统 。 现 在 x64 的 
Windows 上 的 大 部 分 程序 也 是 跑 在 这 个 子 系统 上 的 ， system32 目录 也 没 叫 成 system64 。 


尽管 32 的 语源 的 确 来 自 于 “32 fu". 


那么 为 什么 还 有 Win64 ? 


这 倒 可 以 肯定 ， 这 里 的 64 是 指 64 位 目标 平台 ， 因 为 没有 上 面 的 那 种 歧义 。 


有 一 点 值得 注意 ， 在 MSVC rh, 32 位 环境 (当然 是 说 跑 的 Intel 兼容 CPU 的 PC) 预定 
义 宏 _wIN32 ， 但 64 位 环境 同时 预定 义 了 _wIN32 和 WwIN64 o 


顺便 ， 通 常 64 位 主要 指 x86_64 (微软 称 为 AMD64 ， 这 个 兼容 x86 的 基础 架构 一 开始 
的 确 是 AMD 先 搞 出 来 的 ， 后 来 才 有 Intel EM64T ) 。 


64 位 Itanium 也 有 _winea ， 不 过 一 般 见 不 到 且 跟 MinGW 没 什么 关系 且 现 在 都 不 正式 支 
Rr. TEL... 


对 于 MinGW 来 说 ， 这 里 也 有 类 似 的 坑 : 预定 义 宏 得 先 优 先 检 查 64 位 的 。 实 际 情况 更 加 
复杂 ， 另 说 。 


MinGW 和 MinGW-W64 有 什么 区 别 ? 


这 是 个 关键 问题 ， 但 是 .…... 是 个 很 长 的 故事 。 没 有 铺垫 不 好 回答 。 


首先 ， MinGW 是 GNU 工具 (包括 编译 器 GCC 和 GNU binutils 和 调试 器 GDB 等 ) 在 
Win32 上 的 一 个 移植 ， 是 从 Cygwin 里 fork 出 来 的 。 当 初 只 考虑 32 位 。 和 Cygwin 相 比 ， 不 
强调 POSIX 兼容 性 而 相对 强调 性 能 和 减 小 依赖 。 


具体 来 说 MinGW 除了 以 上 工具 外 ， 还 提供 了 一 个 适 配 于 Win32 的 运行 时 环境 。 其 中 C 
标准 库 实 现 的 二 进 制 文件 直接 用 微软 随 Windows 分 发 的 MSVCRT 。 MinGW 自己 的 运行 时 
库 依 赖 于 MSVCRT 和 其 它 系统 库 。 


而 MinGW GCC 依赖 于 MinGW 运行 时 以 及 libgcc 和 其 它 系 统 库 。 编 译 出 来 的 程序 一 般 
也 要 依赖 这 些 库 ， 所 以 才 会 写 死 在 默认 specs 里 (可 以 用 gcc -dumpspecs 查看 ) 免得 用 户 随 
便 编 译 链 接 个 程序 还 得 手动 指定 一 大 堆 -1 选项 。 


用 三 元 组 表示 目标 平台 ， 当 年 的 MinGW 是 指 i386-pc-mingw32 。 这 里 i386 也 可 以 是 
i486 等 等 .…...， 总 之 是 32 位 x86 指 合集 架构 的 名 称 ; 中 间 的 pc 可 选 ， 表 示 厂 商 名 ; mingw32 
表示 系统 名 。 特 别 注 意 ， 事 实 上 成 为 标准 的 “ 专 有 名 词 ” mingw32 里 的 32 是 固定 的 ; 另外 ， 所 
有 这 些 大 小 写 一 般 也 是 固定 的 。 GCC 等 的 源码 配置 里 面 也 有 硬 编码 进去 。 


然后 ， 因 为 只 支持 32 位 ， 有 人 觉得 不 够 用 。 这 里 的 一 个 主要 人 物 ， 就 是 现在 MinGW- 
W64 的 主要 维护 者 Kai Tietz 。 因 为 工作 需要 重新 实现 提供 x64 支持 的 MinGW 后 提交 到 上 游 
但 被 拒绝 ， 于 是 fork 为 单独 的 项 目 ， 这 就 是 MinGW-W64 的 由 来 。 


可 见 ， MinGW-W64 和 原版 MinGW 有 所 渊源 ， 但 是 独立 的 两 个 项 目 。 


W64 虽然 用 意 是 Win64， 但 是 也 算是 个 专 有 名 词 ， 在 三 元 组 里 占据 厂商 名 ， 例 如 常见 
BY : i686-w64-mingw32。 (在 GCC 源 码 的 配置 文件 中 ，*-w64-mingw32 #0 *-pc-mingw32 是 
分 别 对 待 的 。) 


MinGW-W64 是 同时 支持 32 位 和 64 位 的 ， 甚 至 还 支持 32 位 和 64 位 的 交叉 编译 (启用 
multilib 支持 的 MinGW 发 行 版 例如 mingw-builds 可 以 用 -m32 或 -m64 指定 ) 。 


显然 ， W64 和 支持 的 架构 无 关 。 上 面 i686 就 不 是 64 位 的 平台 (而且 可 以 看 出 这 里 的 
32 也 和 架构 没关系 ) 。 支 持 64 为 的 对 应 三 元 组 是 x86_64-w64-mingw32。 (另外 w32 是 
GNU 惯用 的 对 Win32 的 略称 ， 也 洽 用 到 包括 MinGW 在 内 的 一 些 项 目 中 一 一 如 w32api ， 可 
能 造成 一 些 额外 的 混乱 。) 


ne 容易 让 人 头 阁 的 是 ， 这 两 个 项 目 现在 都 没 死 ， 偏 偏 还 很 容易 因为 这 些 字面 上 的 原因 
搞 错 。 为 了 下 文 描述 方便 ， 原 版 MinGW 称 为 MinGW.org o 


这 里 有 一 点 非常 重要 : 只 有 MinGW-W64 是 GCC 官方 支持 的 (尽管 mingw32 平台 是 二 
等 公民 ) o Kai Tietz 拥有 GCC BA repo 的 提交 权限 。 


所 以 ， 使 用 MinGW-W64 的 GCC 一 般 比 MinGW.org 有 更 新 更 全 面 的 支持 ， 所 以 现在 一 
般 推荐 MinGW-W64 发 行 版 。 


说 到 这 里 .………. 维护 mingw.org 的 Keith Marshall 还 和 Kai Tietz 等 GCC 官方 人 员 在 
bugzilla 上 对 唆 过 。 其 中 Keith Marshall 对 MinGW-W64 使 用 MinGW 一 名 造成 混淆 表示 愤 
慑 。 嘛 ， 这 倒 也 是 事实 。 


当然 ， 也 不 是 说 MinGW.org 就 一 无 是 处 了 。 *-w64-mingw32 原则 上 向 后 兼容 *-pc- 
mingw32 ， 不 过 也 有 一 些 接口 上 的 差别 。 BSD 流 的 pT_* 在 MinGW.org 上 能 用 ,在 
MinGW-W64 的 就 没有 。 (虽然 or * 也 不 怎么 推荐 用 就 是 了 .…….) 


什么 是 MinGW 发 行 版 (distribution) ? 


这 个 说 法 习惯 上 可 以 说 是 从 Linux 等 软件 中 借用 过 来 的 。 


类 似 Linux 内 核 ， 不 管 MinGW.org 还 是 MinGW-W64 ， 本 身 都 是 相对 集中 于 特定 软件 包 
(MinGW 运行 时 库 ) 开发 的 项 目 ， 并 不 着 力 于 提供 整个 开 箱 即 用 的 环境 。 


因此 除了 官方 的 一 些 编译 版 本 外 ， 有 很 多 人 基于 MinGW 运行 时 上 进行 定制 封装 供用 户 下 
载 整个 环境 ， 有 的 还 提供 包 管 理 服务 等 。 这 就 是 发 行 版 。 一 般 提 供 直 接 解压 加 上 PATH 就 能 
用 的 环境 和 /或 安装 包 。 


早期 比较 著名 的 有 TDM-GCC 、 rubenvb 等 。 以 前 用 的 MinGW.org ， 不 过 现在 主要 转 
到 MinGW-W64 上 来 了 。 


比较 新 的 发 行 版 ， 一 开始 就 着 眼 于 MinGW-W64 。 最 著名 的 发 行 版 之 一 应 该 是 mingw- 
builds ， 基 本 上 近年 来 (GCC4.7 MA) Windows 上 能 用 支持 最 新 版 本 最 快 的 ， 支 持 交 叉 编 
译 。 

mingw-builds 一 开始 在 sf.net 上 有 自己 的 项 目 ， 不 过 后 来 表示 要 求 加 入 MinGW-W64 项 
El 作为 official builds ， 所 以 停 更 了 ， 更 新 都 在 MinGW-W64 里 面 ， 不 过 残 念 的 是 好 像 到 现在 
MinGW-W64 看 来 都 不 提供 唯一 的 官方 发 行 版 ， 所 以 还 是 叫做 personal builds 。 


另外 提 一 下 还 有 微软 VC++ 标准 库 ( Dinkumware 生产 ) 维护 者 之 一 Mr.STL(Stephan T. 
Lavavej) 个 人 的 发 行 版 ， 很 早 就 在 默认 specs 里 加 了 -std=c++11 ， 而 GCC5 改 用 - 
std=c++14 > (官方 GCC 6 会 用 -std=gnu++14 。) 


还 有 MSYS2 项 目的 MinGW 发 行 版 (这 里 可 能 有 新 的 混乱 ， 下 文 再 说 ) ， 也 是 mingw- 
builds 一 伙 人 搞 的 ， 4.9.1 比 mingw-builds 更 新 还 快 几 个 小 时 。 


其 它 发 行 版 可 以 参照 mingw-w64.sourceforge.net ， 更 新 相对 没 那么 快 。 


最 后 ， 不 嫌 亲 着 蛋 阁 也 可 以 自己 编译 。 不 过 迫不得已 外 最 好 别 这 样 做 ( GCC 的 编译 过 程 
和 hacking 实在 无 力 吐 槽 ) 。 重 复 一 青 ， 非 常 不 推荐 。 


上 面 为 什么 要 强调 更 新 呢 ? 


如 果 不 想 使 用 新 的 特性 生成 更 高 质量 的 代码 ， 其 实 也 没 必要 上 果 着 上 面 这 么 多 版 本 混乱 的 
MinGW 了 。 即 便 要 兼容 性 ， 也 可 以 用 古董 嘛 CuE...... 


对 于 C++ 前 端 来 说 MinGW 尤为 重要 ， 现 阶段 根本 没有 能 顶替 的 。 作 为 系统 默认 ABI 新 
锐 代 表 的 MSVC2015 一 一 前 端 还 是 残 的 ....…. 各 种 bug 。 


GCC 也 有 各 种 傻 缺 bug ， 不 过 至 少 在 前 端 来 说 ， 程 度 上 绝 逼 打 不 过 ci (Microsoft 
C&C++ Optimizing Compiler ) 。 


VCH 调试 支持 当然 好 得 多 ， 但 是 编译 器 一 坑 驳 集成 调试 再 好 也 没 用 了 。 





Nit, Clang++ ? libc++ 什么 时 候 能 在 Windows 上 跑 顺 再 说 一 即便 这 样 MinGW 兼容 
的 还 是 得 依赖 MinGW 的 libgcc 。 至 于 和 VC++ 兼容 的 clang-cl ， 看 起 来 还 在 折腾 微软 的 
坑 爹 AB| 黑 箱 〈 这 没 像 大 部 分 平台 上 GCC 用 的 Itanium ABI 公开 文档 ) ， 一 年 半 载 别 指望 


o 


XH] 


什么 是 异常 模型 和 线程 模型 ， 用 哪 种 比较 好 ? 


这 两 个 都 是 对 于 C++ 实现 ( G++ 、 libgcc 、 libsupt+ SS) MEM. 


首先 ， 异 常 模 型 。 C++ 标准 没 规定 异常 怎么 实现 。 MinGW GCC 使 用 的 Itanium ABI 也 
没 规定 必须 怎么 实现 (但 规定 了 一 些 公 共 接 口 ) ， 这 部 分 由 实现 自行 考虑 。 


GCC 一 般 提 供 了 SjLj (CBS setjmp / longjmp ) 实现 的 stub 。 对 于 x86 ， 人 允许 使 用 
Dwarf2 调试 信息 的 实现 。 两 者 的 区 别 在 于 sjlj 比较 通用 ， 但 是 即便 不 抛 出 捕获 异常 而 只 是 使 
用 异常 中 立 的 风格 隐 式 传递 异常 ， 也 有 运行 时 开销 。 而 Dwarf2 兼容 性 (考虑 多 层 C++ C 
的 DLL 互相 调用 来 看 ) 相对 较 差 ， 但 没有 这 种 开销 。 


两 者 ABI 并 不 兼容 (知道 C++ 坑 爹 了 吧 ， 不 仅 不 同 实 现 不 兼容 ， 同 一 个 编译 器 同一 个 平 
台 自 己 都 能 跟 自己 不 兼容 ..…...) 一 一 前 者 依赖 类 似 libgec_s_sjlj.dll 这 样 的 DLL ， 后 者 则 
是 类 似 libgec_s_dw2.d11 这 样 的 。 旧 一 点 的 可 能 也 没有 这 种 后 级 差异 。 

AM, libstdc++ 作为 C++ 标准 库 实现 显然 依赖 异常 ， 但 名 字 一 样 的 DLL 可 能 依赖 的 不 
是 同一 种 。 所 以 混用 多 个 版 本 MinGW GCC 且 没 把 path 清理 干净 的 时 候 容 易 出 现 找 不 到 符 
号 定义 导致 链接 失败 。 这 还 不 是 最 坑 的 ， 有 时 候 gb 载 人 不 同位 置 的 DLL 在 运行 时 挂 掉 ， 
还 不 只 是 一 个 pam 的 问题 .…... 这 种 情况 下 先 拿 Sysinternals 的 Process Exporler 之 类 的 工 
具 看 看 进程 加 载 的 DLL 是 不 是 预期 的 再 说 。 


为 什么 说 要 有 这 人 么 坑 驳 不 兼容 的 ， 像 VC++ 一 样 用 一 种 不 就 好 了 ..……… 其 实 Win32 x86 上 
最 理想 的 应 该 是 和 VC++ 一 样 基于 SEH (Windows 结构 化 异常 处 理 ) 的 实现 ， 但 是 
Borland 关于 这 个 的 专利 才 没 过 期 几 天 ..………. 所 以 你 懂 的 。 


x64 上 没 专利 的 麻烦 ， 有 SjLj 和 SEH 的 实现 ， 一 般 还 是 SEH 。 
第 二 ， 线 程 模型 。 


主要 有 两 个 ， Win32 和 POSIX ， 对 标准 库 线程 的 支持 不 一 样 。 


Windows ¿f= API 和 POSIX(pthread) 有 很 大 不 同 ， 而 ISO C++ 的 std::thread 为 代 
表 的 接口 是 很 接近 pthread BS, 


所 以 在 libstdc++ 上 实现 这 些 接口 ， 首 先 依 赖 的 是 pthread 在 Win32 上 的 移植 
libwinpthread ， 也 就 是 使 用 POSIX 线程 模型 。 因 此 发 布 的 时 候 需 要 带 上 libwinpthread- 
1.dli 之 类 的 dll。 


至 于 Win32 线程 模型 ， GCC mailing list 是 有 提 过 ， 不 过 到 现在 还 是 没 实现 。 也 就 是 说 
ISO C++ 的 实现 是 残 的 ， 没 法 用 。 如 果 只 打算 用 Win32 多 线程 API 倒是 的 可 以 用 。 


所 以 取决 于 具体 需要 。 要 兼容 性 好 点 的 一 般 还 是 POSIX, 


另外 还 有 单线 程 的 single 模型 ...... Windows 上 应 该 没 哈 必要 用 。 


什么 是 MSYS， 和 MinGW 有 什么 区 别 ? 


MSYS(minimal system) 原本 是 MinGW.org 项 目的 一 个 组 件 ， 旨 在 Windows 上 提供 一 套 
X UNIX shell 为 基础 的 “系统 "。 它 本 身 不 提供 编译 器 或 者 大 小 写 敏 感 的 文件 系统 支持 GRE 
NTFS 倒是 支持 这 里 的 POSIX 语义 ”， 但 基本 没 看 见 有 谁 用 ..….…. ) 


和 作为 原生 Win32 程序 的 MinGW 不 同 ， MSYS 环境 下 编译 的 本 机 程序 依赖 于 额外 的 特 
定 的 MSYS 运行 时 ， 更 接近 Cygwin (强调 POSIX 兼容 性 ) ， 会 有 性 能 损失 (但 一 般 意义 上 
比 Cygwin 轻 量 ) 。 对 应 的 三 元 组 是 “pc-msys (通常 其 中 的 pc 可 以 省 上 略 即 缩写 为 *-msys 
) o MSYS 提供 了 一 个 sysroot 环境 (FHA /bin 和 /etc 等 ) ， 因 此 移植 POSIX 环境 
的 程序 一 般 更 方便 。 


所 以 常规 的 实践 是 ， 如 果 只 是 开发 Windows 程序 ， 能 用 MinGW 就 不 要 用 MSYS 原生 的 
编译 器 来 构建 。 当 然 ， 使 用 MSYS 上 的 sh 等 工具 还 是 没 问 题 ， 跟 GNU 工具 配套 怎么 说 比 
cmd 好 用 。 (虽然 也 有 不 少 琐碎 的 兼容 性 问题 。) 


什么 是 MSYS2，MSYS2 上 的 MinGW 发 行 版 是 怎么 
回 事 ? 


字面 意思 ，MSYS 2.0 。 比 起 1.0 来 说 更 加 像 Cygwin (例如 vetc/fstab WE) 。 项 目 
在 sf.net 上 托管 。 


其 中 的 一 个 特色 是 基础 系统 附带 ArchLinux 移植 的 包 管 理 器 pacman， 可 以 同时 独立 部 署 
/mingw32 (i686-w64-mingw32) 和 /mingwe4 (x86_64-w64-mingw32) 下 的 开发 和 运行 环境 。 
注意 和 mingw64 并 列 时 mingw32 自然 指 的 不 只 是 三 元 组 的 最 后 一 项 了 。 


下 载 依赖 相当 方便 (就 是 没有 靠 谱 的 镜像 时 网 速 可 能 非常 抽 计 ) 。 具 体 使 用 参考 Arch 
Linux Wiki。 对 应 的 交叉 编译 环境 在 Arch Linux 上 也 有 官方 的 包 支 持 。 


虽然 MSYS2 提供 的 MinGW 上 主要 的 编译 器 不 直接 支持 交叉 编译 ， 不 过 可 以 同时 装 不 同 
的 目标 平台 的 编译 器 〈 现 在 也 有 交叉 编译 器 的 包 ， 没 测试 ) 所 以 不 是 什么 问题 ， 一 定 程 度 上 
比 mingw-builds 的 -m32 和 -m64 来 说 更 加 稳定 靠 谱 。 (现在 也 另外 提供 支持 交叉 编译 的 
包 。) 


只 提供 Dwarf2 异常 模型 和 POSIX 线程 模型 对 于 成 套 系统 也 不 是 什么 大 问题 。 包 虽然 比 
不 上 ArchLinux 那么 丰富 不 过 常用 的 很 多 都 有 ， 免 去 自己 编译 的 麻烦 。 打 算 长 期 使 用 MinGW 
和 相关 工具 的 ， 推 荐 使 用 。 虽然 滚 挂 了 也 没 多 大 事 ， 不 过 版 本 是 个 问题 。 如 果 需 要 特 
定 版 本 的 GCC 就 不 适用 (比如 规避 GCC 4.9891 bug...) ， 除 非 有 耐心 自己 找到 .xz 
手动 安装 。 


相关 配置 (包括 pacman 的 一 些 中 国 大 陆 镜 像 ) 可 以 看 这 里 。 


部 署 程序 需要 提供 哪些 文件 ? 


Windows 默认 安装 自然 不 带 MinGW 运行 时 环境 ， 所 以 除了 编译 出 来 的 程序 和 可 能 附带 
的 数据 ， 一 些 dll 是 要 准 各 好 的 一 一 除非 有 耐心 折腾 全 部 静态 链接 。 

不 同 版 本 不 同 语言 不 同 编译 器 编译 出 来 的 东西 都 不 太一 样 。 最 简单 暴力 也 可 靠 (?) 的 
方法 就 是 复制 可 执行 程序 到 没 装 环境 的 白板 测试 机 上 看 少 了 哪些 东西 〈 不 过 未 必 一 目 了 
然 ) 。 

简单 可 靠 的 方式 是 用 Dependency Walker 等 工具 查看 依赖 。 

对 于 C++ 程序 ， 除 非 不 用 POSIX thread 可 以 省 掉 libwinpthread ， 一 般 至 少 得 确保 上 面 
异常 模型 和 线程 模型 讨论 中 提 到 的 三 个 DLL (注意 就 算 不 显 式 使 用 标准 库 ， 编 译 器 生成 的 代 
码 也 可 能 用 到 一 一 典型 的 如 默认 ::operator new ， 所 以 得 带 上 libstdc++ ) 。 


现在 还 有 什么 新 卦 ? 


就 提 一 个 GCC 4.9 的 问题 。 


GCC 4.9 的 LTO (链接 时 优化 ) 默认 使 用 新 的 目标 文件 格式 ， 生 成 的 文件 不 包含 见 余 的 
二 进 制 代码 。 但 是 LTO 有 特定 的 phase (内 部 会 调用 make 多 编译 几 个 pass) ， 传 统 的 静 
态 链接 器 ( ar ) 不 知道 这 里 的 约定 ， 所 以 原来 好 好 的 东西 ， 升 级 4.9 以 后 开 了 -fito 就 可 能 
找 不 到 符号 链接 失败 。 


许多 MinGW 发 行 版 仍然 没 实现 gcc-ar 【〔 运 行 会 提示 没 支持 linker plugin) 。 兼 容 旧 版 
本 的 行为 还 得 加 上 -ffat-lto-objects 编译 选项 。 


